视觉语言模型

# 视觉语言模型

CambioML

AnyParser通过视觉语言模型提升了文档检索准确性高达2倍。它能精确提取文本、表格、图表和布局信息，优于传统OCR工具。该产品具有隐私保护、企业集成等特点。

视觉语言模型

Aya Vision 8B

CohereForAI的Aya Vision 8B是一个8亿参数的多语言视觉语言模型，专为多种视觉语言任务优化，支持OCR、图像描述、视觉推理、总结、问答等功能。该模型基于C4AI Command R7B语言模型，结合SigLIP2视觉编码器，支持23种语言，具有16K上下文长度。其主要优点包括多语言支持、强大的视觉理解能力以及广泛的适用场景。该模型以开源权重形式发布，旨在推动全球研究社区的发展。根据CC-BY-NC许可协议，用户需遵守C4AI的可接受使用政策。

SigLIP2

SigLIP2 是谷歌开发的多语言视觉语言编码器，具有改进的语义理解、定位和密集特征。它支持零样本图像分类，能够通过文本描述直接对图像进行分类，无需额外训练。该模型在多语言场景下表现出色，适用于多种视觉语言任务。其主要优点包括高效的语言图像对齐能力、支持多种分辨率和动态分辨率调整，以及强大的跨语言泛化能力。SigLIP2 的推出为多语言视觉任务提供了新的解决方案，尤其适合需要快速部署和多语言支持的场景。

VLM-R1

VLM-R1 是一种基于强化学习的视觉语言模型，专注于视觉理解任务，如指代表达理解（Referring Expression Comprehension, REC）。该模型通过结合 R1（Reinforcement Learning）和 SFT（Supervised Fine-Tuning）方法，展示了在领域内和领域外数据上的出色性能。VLM-R1 的主要优点包括其稳定性和泛化能力，使其能够在多种视觉语言任务中表现出色。该模型基于 Qwen2.5-VL 构建，利用了先进的深度学习技术，如闪存注意力机制（Flash Attention 2），以提高计算效率。VLM-R1 旨在为视觉语言任务提供一种高效且可靠的解决方案，适用于需要精确视觉理解的应用场景。

R1-V

R1-V是一个专注于强化视觉语言模型（VLM）泛化能力的项目。它通过可验证奖励的强化学习（RLVR）技术，显著提升了VLM在视觉计数任务中的泛化能力，尤其是在分布外（OOD）测试中表现出色。该技术的重要性在于，它能够在极低的成本下（仅需2.62美元的训练成本），实现对大规模模型的高效优化，为视觉语言模型的实用化提供了新的思路。项目背景基于对现有VLM训练方法的改进，目标是通过创新的训练策略，提升模型在复杂视觉任务中的表现。R1-V的开源性质也使其成为研究者和开发者探索和应用先进VLM技术的重要资源。

Ollama OCR for web

Ollama OCR For Web

ollama-ocr是一个基于ollama的光学字符识别（OCR）模型，能够从图像中提取文本。它利用先进的视觉语言模型，如LLaVA、Llama 3.2 Vision和MiniCPM-V 2.6，提供高精度的文本识别。该模型对于需要从图片中获取文本信息的场景非常有用，如文档扫描、图像内容分析等。它开源免费，易于集成到各种项目中。

Moondream AI

Moondream AI是一个开源的视觉语言模型，具有强大的多模态处理能力。它支持多种量化格式，如fp16、int8、int4，能够在服务器、PC、移动设备等多种目标设备上进行GPU和CPU优化推理。其主要优点包括快速、高效、易于部署，且采用Apache 2.0许可证，允许用户自由使用和修改。Moondream AI的定位是为开发者提供一个灵活、高效的人工智能解决方案，适用于需要视觉和语言处理能力的各种应用场景。

cogagent-9b-20241220

Cogagent 9b 20241220

CogAgent-9B-20241220模型基于GLM-4V-9B双语开源VLM基础模型，通过数据收集和优化、多阶段训练以及策略改进，在GUI感知、推理预测准确性、动作空间完整性和任务泛化性方面取得了显著进步。该模型支持双语（中文和英文）交互，并能处理屏幕截图和语言输入。此版本已应用于ZhipuAI的GLM-PC产品中，旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理的研究和应用。

vision-parse

vision-parse是一个利用视觉语言模型（Vision LLMs）将PDF文档解析为格式化良好的Markdown内容的工具。它支持多种模型，包括OpenAI、LLama和Gemini等，能够智能识别和提取文本及表格，并保持文档的层级结构、样式和缩进。该工具的主要优点包括高精度的内容提取、格式保持、支持多模型以及本地模型托管，适用于需要高效文档处理的用户。

CogAgent

CogAgent是一个基于视觉语言模型（VLM）的GUI代理，它通过屏幕截图和自然语言实现双语（中文和英文）交云。CogAgent在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面取得了显著进步。该模型已经在ZhipuAI的GLM-PC产品中得到应用，旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理的研究和应用。

DeepSeek-VL2-Tiny

Deepseek VL2 Tiny

DeepSeek-VL2是一系列先进的大型混合专家（MoE）视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解、视觉定位等多项任务中展现出卓越的能力。DeepSeek-VL2由三种变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集型和基于MoE的模型相比，达到了竞争性或最先进的性能。

POINTS-Yi-1.5-9B-Chat

POINTS Yi 1.5 9B Chat

POINTS-Yi-1.5-9B-Chat是一个视觉语言模型，它集成了最新的视觉语言模型技术和微信AI提出的新技术。该模型在预训练数据集过滤、模型汤（Model Soup）技术等方面有显著创新，能够显著减少预训练数据集的大小并提高模型性能。它在多个基准测试中表现优异，是视觉语言模型领域的一个重要进展。

POINTS-Qwen-2-5-7B-Chat

POINTS Qwen 2 5 7B Chat

POINTS-Qwen-2-5-7B-Chat是一个集成了视觉语言模型最新进展和新技巧的模型，由微信AI的研究人员提出。它通过预训练数据集筛选、模型汤等技术，显著提升了模型性能。这个模型在多个基准测试中表现优异，是视觉语言模型领域的一个重要进步。

POINTS-1-5-Qwen-2-5-7B-Chat

POINTS 1 5 Qwen 2 5 7B Chat

WePOINTS 系列最新更新，参数量大性能强，有多项创新技术，在 OpenCompass 排行榜表现优异。

DeepSeek-VL2

DeepSeek-VL2是一系列大型Mixture-of-Experts视觉语言模型，相较于前代DeepSeek-VL有显著提升。该模型系列在视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等任务上展现出卓越的能力。DeepSeek-VL2包含三个变体：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别拥有1.0B、2.8B和4.5B激活参数。DeepSeek-VL2在激活参数相似或更少的情况下，与现有的开源密集和MoE基础模型相比，达到了竞争性或最先进的性能。

OpenGVLab InternVL

Opengvlab InternVL

InternVL是一个AI视觉语言模型，专注于图像分析和描述。它通过深度学习技术，能够理解和解释图像内容，为用户提供准确的图像描述和分析结果。InternVL的主要优点包括高准确性、快速响应和易于集成。该技术背景基于最新的人工智能研究，致力于提高图像识别的效率和准确性。目前，InternVL提供免费试用，具体价格和定位需要根据用户需求定制。

Florence-VL

Florence-VL是一个视觉语言模型，通过引入生成式视觉编码器和深度广度融合技术，增强了模型对视觉和语言信息的处理能力。该技术的重要性在于其能够提升机器对图像和文本的理解，进而在多模态任务中取得更好的效果。Florence-VL基于LLaVA项目进行开发，提供了预训练和微调的代码、模型检查点和演示。

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外，Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

Qwen2-VL-2B

Qwen2-VL-2B是Qwen-VL模型的最新迭代，代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频，为基于视频的问题回答、对话、内容创作等提供高质量的支持。Qwen2-VL还支持多语言，除了英语和中文，还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE)，增强了其多模态处理能力。

PaliGemma 2

PaliGemma 2是Gemma家族中的第二代视觉语言模型，它在性能上进行了扩展，增加了视觉能力，使得模型能够看到、理解和与视觉输入交互，开启了新的可能性。PaliGemma 2基于高性能的Gemma 2模型构建，提供了多种模型尺寸（3B、10B、28B参数）和分辨率（224px、448px、896px）以优化任何任务的性能。此外，PaliGemma 2在化学公式识别、乐谱识别、空间推理和胸部X光报告生成等方面展现出领先的性能。PaliGemma 2旨在为现有PaliGemma用户提供便捷的升级路径，作为即插即用的替代品，大多数任务无需大幅修改代码即可获得性能提升。

SmolVLM

SmolVLM是一个小型但功能强大的视觉语言模型（VLM），拥有2B参数，以其较小的内存占用和高效性能在同类模型中处于领先地位。SmolVLM完全开源，包括所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可下发布。该模型适合在浏览器或边缘设备上进行本地部署，降低推理成本，并允许用户自定义。

LLaVA-o1

LLaVA-o1是北京大学元组团队开发的一个视觉语言模型，它能够进行自发的、系统的推理，类似于GPT-o1。该模型在六个具有挑战性的多模态基准测试中超越了其他模型，包括Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。LLaVA-o1通过逐步推理解决问题，展示了其在视觉语言模型中的独特优势。

Aquila-VL-2B-llava-qwen

Aquila VL 2B Llava Qwen

Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型（VLM），选用Qwen2.5-1.5B-instruct模型作为语言模型（LLM），并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练，包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源，旨在推动多模态性能的发展，特别是在图像和文本的结合处理方面。

PromptFix

PromptFix是一个综合框架，能够使扩散模型遵循人类指令执行各种图像处理任务。该框架通过构建大规模的指令遵循数据集，提出了高频引导采样方法来控制去噪过程，并设计了辅助提示适配器，利用视觉语言模型增强文本提示，提高模型的任务泛化能力。PromptFix在多种图像处理任务中表现优于先前的方法，并在盲恢复和组合任务中展现出优越的零样本能力。

OmniParser

OmniParser 是微软研究团队开发的一种用于解析用户界面截图的方法，它通过识别可交互图标和理解屏幕截图中各种元素的语义，显著提升了基于视觉的语言模型（如GPT-4V）生成准确界面操作的能力。该技术通过精细调整的检测模型和描述模型，能够解析屏幕截图中的可交互区域和提取功能语义，从而在多个基准测试中超越了基线模型。OmniParser 作为一个插件，可以与其他视觉语言模型结合使用，提升它们的性能。

VisRAG

VisRAG是一个创新的视觉语言模型（VLM）基础的RAG（Retrieval-Augmented Generation）流程。与传统的基于文本的RAG不同，VisRAG直接将文档作为图像通过VLM进行嵌入，然后检索以增强VLM的生成能力。这种方法最大限度地保留了原始文档中的数据信息，并消除了解析过程中引入的信息损失。VisRAG模型在多模态文档上的应用，展示了其在信息检索和增强文本生成方面的强大潜力。

ColPali

ColPali 是一种基于视觉语言模型的高效文档检索工具，它通过直接嵌入文档页面图像的方式来简化文档检索流程。ColPali 利用了最新的视觉语言模型技术，特别是 PaliGemma 模型，通过晚交互机制实现多向量检索，从而提高检索性能。这一技术不仅加快了索引速度，降低了查询延迟，而且在检索包含视觉元素的文档方面表现出色，例如图表、表格和图像。ColPali 的出现，为文档检索领域带来了一种新的“视觉空间检索”范式，有助于提高信息检索的效率和准确性。

Qwen2-VL

Qwen2-VL是一款基于Qwen2打造的最新一代视觉语言模型，具备多语言支持和强大的视觉理解能力，能够处理不同分辨率和长宽比的图片，理解长视频，并可集成到手机、机器人等设备中进行自动操作。它在多个视觉理解基准测试中取得全球领先的表现，尤其在文档理解方面有明显优势。

InternLM-XComposer-2.5

Internlm XComposer 2.5

InternLM-XComposer-2.5是一款支持长上下文输入和输出的多功能大型视觉语言模型。它在各种文本图像理解和创作应用中表现出色，实现了与GPT-4V相当的水平，但仅使用了7B的LLM后端。该模型通过24K交错图像文本上下文进行训练，能够无缝扩展到96K长上下文，通过RoPE外推。这种长上下文能力使其在需要广泛输入和输出上下文的任务中表现突出。此外，它还支持超高分辨率理解、细粒度视频理解、多轮多图像对话、网页制作以及撰写高质量图文文章等功能。

DriveVLM

DriveVLM是一个自动驾驶系统，它利用视觉语言模型(VLMs)来增强场景理解和规划能力。该系统通过独特的推理模块组合，包括场景描述、场景分析和分层规划，以提高对复杂和长尾场景的理解。此外，为了解决VLMs在空间推理和计算需求上的局限性，提出了DriveVLM-Dual，这是一个混合系统，结合了DriveVLM的优势和传统自动驾驶流程。在nuScenes数据集和SUP-AD数据集上的实验表明，DriveVLM和DriveVLM-Dual在处理复杂和不可预测的驾驶条件方面非常有效。最终，DriveVLM-Dual在生产车辆上进行了部署，验证了其在现实世界自动驾驶环境中的有效性。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase