视觉

# 视觉

MiniCPM-o

MiniCPM-o 2.6 是OpenBMB团队开发的最新多模态大型语言模型（MLLM），具有8B参数，能够在手机等端侧设备上实现高质量的视觉、语音和多模态直播功能。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，采用端到端的方式训练，性能与GPT-4o-202405相当。其主要优点包括领先的视觉能力、先进的语音能力、强大的多模态直播能力、强大的OCR能力以及优越的效率。该模型免费开源，适用于学术研究和商业用途。

Phi-3-vision-128k-instruct

Phi 3 Vision 128k Instruct

Phi-3 Vision是一个轻量级、最先进的开放多模态模型，基于包括合成数据和经过筛选的公开可用网站在内的数据集构建，专注于文本和视觉的非常高质量的推理密集数据。该模型属于Phi-3模型家族，多模态版本支持128K上下文长度（以token计），经过严格的增强过程，结合了监督微调和直接偏好优化，以确保精确的指令遵循和强大的安全措施。

Qwen-VL

Qwen-VL 是阿里云推出的通用型视觉语言模型,具有强大的视觉理解和多模态推理能力。它支持零样本图像描述、视觉问答、文本理解、图像地标定位等任务,在多个视觉基准测试中达到或超过当前最优水平。该模型采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,可以端到端处理图像与文本的多模态输入与输出。Qwen-VL 的优势包括通用性强、支持多语种、细粒度理解等。它可以广泛应用于图像理解、视觉问答、图像标注、图文生成等任务。

AI图像检测识别

moondream

moondream是一个使用SigLIP、Phi-1.5和LLaVA训练数据集构建的16亿参数模型。由于使用了LLaVA数据集，权重受CC-BY-SA许可证保护。您可以在Huggingface Spaces上尝试使用它。该模型在VQAv2、GQA、VizWiz和TextVQA基准测试中表现如下：LLaVA-1.5（13.3B参数）：80.0、63.3、53.6、61.3；LLaVA-1.5（7.3B参数）：78.5、62.0、50.0、58.2；MC-LLaVA-3B（3B参数）：64.2、49.6、24.9、38.6；LLaVA-Phi（3B参数）：71.4、-、35.9、48.6；moondream1（1.6B参数）：74.3、56.3、30.3、39.8。

A Vision Check-up

A Vision Check Up

这篇论文系统评估了大型语言模型（LLMs）生成和识别逐渐复杂的视觉概念的能力，并展示了如何使用文本模型训练初步的视觉表示学习系统。虽然语言模型不能直接处理像素级的视觉信息，但使用代码表示图像进行研究。LLM 生成的图像虽然不像自然图像，但在图像生成和纠正方面的结果表明，准确建模字符串可以教会语言模型许多关于视觉世界的方面。此外，利用文本模型生成的图像进行自监督视觉表示学习的实验，突出了只使用 LLMs 就能训练能够对自然图像进行语义评估的视觉模型的潜力。

InternVL

InternVL通过将ViT模型扩展到60亿参数并与语言模型对齐,构建出目前最大的14B开源视觉基础模型,在视觉感知、跨模态检索、多模态对话等广泛任务上取得了32项state-of-the-art性能。

NEX

NEX是一个媒体技术公司,正在开发可控制的AI模型,用于视觉表达。我们相信技术将帮助我们追求伟大的故事。我们的使命是增强人类的讲故事能力。

Blenny AI

Blenny AI 是一款可以帮助用户对网页进行截图并进行智能分析的 AI 视觉辅助工具。用户可以通过截图快速获取 AI 摘要、翻译和访问网页等功能。此外，Blenny AI 还支持自定义 AI 代理，根据用户的需求提供个性化的服务。Blenny AI 由 GPT-4V 驱动。

Moji AI

Moji AI - Chat & Content AI是您掌握内容创作艺术的终极多合一应用，由先进的人工智能驱动。Moji AI简化并提升了您的写作和内容管理体验，是专业人士和创意人士的必不可少的工具。主要功能包括AI写作助手、电子邮件写作模板、文本转图像生成、Instagram参与率计算器等。Moji AI - Chat & Content AI Pro计划：月度：$9.99，年度：$89.99。适用于iPhone、iPad和Mac，支持英语语言。

Quill News Digest

Quill News Digest

Quill News Digest是一款不同寻常的日常新闻摘要应用。通过视觉摘要和易于阅读的集合，提供最重要的故事。图像、地图、引用。花更少的时间来了解最新动态，更多时间享受你所做的事情！我们从互联网上的各种来源总结了最重要的故事，为您提供简洁、公正的快速阅读。每个集合中的故事都包括一个“快速”阅读、一个扩展摘要、图像、引用、相关位置以及阅读您选择的来源的单独文章的选项。Quill每天早上8点发布一次摘要，让您可以翻阅互联网上最重要的故事。使用Quill，您可以确保自己是最新的，而不会被过多的有偏见的信息所淹没。

Abacus

Abacus.AI是全球首个端到端AI平台，为常见的企业应用场景实现实时的大规模深度学习。通过我们先进的MLOps平台，您可以使用自己的模型或使用我们的神经网络技术创建高度准确的模型，并在各种应用场景中进行操作，包括预测、个性化、视觉、异常检测和NLP等。

模型训练与部署

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase