视觉模型

# 视觉模型

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Aya Vision

Aya Vision 是 Cohere For AI 团队开发的先进视觉模型，专注于多语言多模态任务，支持 23 种语言。该模型通过创新的算法突破，如合成标注、多语言数据扩展和多模态模型融合，显著提升了视觉和文本任务的性能。其主要优点包括高效性（在计算资源有限的情况下仍能表现出色）和广泛的多语言支持。Aya Vision 的发布旨在推动多语言多模态研究的前沿发展，并为全球研究社区提供技术支持。

Document Inlining

Document Inlining

Document Inlining是Fireworks AI推出的一款复合AI系统，它能够将任何大型语言模型(LLM)转化为视觉模型，以处理图像或PDF文档。这项技术通过构建自动化流程，将任何数字资产格式转换为LLM兼容的格式，实现逻辑推理。Document Inlining通过解析图像和PDFs，直接将它们输入到用户选择的LLM中，提供更高的质量、输入灵活性和超简单的使用方式。它解决了传统LLM在处理非文本数据时的局限性，通过专业化的组件分解任务，提高了文本模型推理的质量，并且简化了开发者的使用体验。

InternViT-6B-448px-V2_5

Internvit 6B 448px V2 5

InternViT-6B-448px-V2_5是一个基于InternViT-6B-448px-V1-5的视觉模型，通过使用ViT增量学习与NTP损失（阶段1.5），提升了视觉编码器提取视觉特征的能力，尤其是在大规模网络数据集中代表性不足的领域，如多语言OCR数据和数学图表等。该模型是InternVL 2.5系列的一部分，保留了与前代相同的“ViT-MLP-LLM”模型架构，并集成了新增量预训练的InternViT与各种预训练的LLMs，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。

ReKep

ReKep是一个用于机器人操控的时空关系关键点约束推理系统，它通过将机器人操控任务表示为关联机器人和环境的约束来编码期望的机器人行为。ReKep利用大型视觉模型和视觉-语言模型，无需特定任务训练或环境模型，即可生成基于关键点的约束，这些约束可以被优化以实现多阶段、野外、双手和反应性行为。ReKep的主要优点包括其通用性、无需手动标记以及能够被现成求解器实时优化以产生机器人动作。

Sapiens

Sapiens视觉模型由Meta Reality Labs开发，专注于处理人类视觉任务，包括2D姿态估计、身体部位分割、深度估计和表面法线预测等。模型在超过3亿张人类图像上训练，具备高分辨率图像处理能力，并能在数据稀缺情况下表现出色。其设计简单、易于扩展，性能在增加参数后显著提升，已在多个测试中超越现有基线模型。

MIT MAIA

MAIA（Multimodal Automated Interpretability Agent）是由MIT计算机科学与人工智能实验室（CSAIL）开发的一个自动化系统，旨在提高人工智能模型的解释性。它通过视觉-语言模型的支撑，结合一系列实验工具，自动化地执行多种神经网络解释性任务。MAIA能够生成假设、设计实验进行测试，并通过迭代分析来完善其理解，从而提供更深入的AI模型内部运作机制的洞察。

LongVA

LongVA是一个能够处理超过2000帧或超过200K视觉标记的长上下文转换模型。它在Video-MME中的表现在7B模型中处于领先地位。该模型基于CUDA 11.8和A100-SXM-80G进行了测试，并且可以通过Hugging Face平台进行快速启动和使用。

Florence-2-base

Florence 2 Base

Florence-2是由微软开发的高级视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示，执行如描述、目标检测和分割等任务。它利用包含54亿个注释的5.4亿张图像的FLD-5B数据集，精通多任务学习。模型的序列到序列架构使其在零样本和微调设置中都表现出色，证明其为有竞争力的视觉基础模型。

Florence-2-large

Florence 2 Large

Florence-2-large是由微软开发的先进视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉-语言任务。该模型能够解释简单的文本提示来执行如图像描述、目标检测和分割等任务。它利用包含54亿注释的5.4亿图像的FLD-5B数据集，精通多任务学习。其序列到序列的架构使其在零样本和微调设置中均表现出色，证明是一个有竞争力的视觉基础模型。

Florence-2

Florence-2是一个新型的视觉基础模型，它通过统一的、基于提示的表示方式，能够处理多种计算机视觉和视觉-语言任务。它设计为接受文本提示作为任务指令，并以文本形式生成期望的结果，无论是图像描述、目标检测、定位还是分割。这种多任务学习设置需要大规模、高质量的注释数据。为此，我们共同开发了FLD-5B，它包含了54亿个综合视觉注释，涵盖1.26亿张图像，使用了自动化图像注释和模型细化的迭代策略。我们采用了序列到序列的结构来训练Florence-2，以执行多样化和全面的视觉任务。广泛的评估表明，Florence-2是一个强大的视觉基础模型竞争者，具有前所未有的零样本和微调能力。

llama3v

llama3v是一个基于Llama3 8B和siglip-so400m的SOTA（State of the Art，即最先进技术）视觉模型。它是一个开源的VLLM（视觉语言多模态学习模型），在Huggingface上提供模型权重，支持快速本地推理，并发布了推理代码。该模型结合了图像识别和文本生成，通过添加投影层将图像特征映射到LLaMA嵌入空间，以提高模型对图像的理解能力。

Page Assist - A Web UI for Local AI Models

Page Assist A Web UI For Local AI Models

Page Assist 是一个为本地 AI 模型提供便捷的 Web 用户界面的辅助工具。您可以利用本地 AI 模型与浏览器交互，或者将其作为本地 AI 模型供应商（如 Ollama Repo）的 Web 用户界面。当前功能包括侧边栏任务支持、视觉模型支持、最小化的本地 AI 模型 Web 用户界面、互联网搜索功能、侧边栏上的 PDF 对话框、文档聊天（PDF、CSV、TXT、MD 格式）等。

LaVi-Bridge

LaVi-Bridge是一种针对文本到图像扩散模型设计的桥接模型,能够连接各种预训练的语言模型和生成视觉模型。它通过利用LoRA和适配器,提供了一种灵活的插拔式方法,无需修改原始语言和视觉模型的权重。该模型与各种语言模型和生成视觉模型兼容,可容纳不同的结构。在这一框架内,我们证明了通过整合更高级的模块(如更先进的语言模型或生成视觉模型)可以明显提高文本对齐或图像质量等能力。该模型经过大量评估,证实了其有效性。

VMamba

VMamba是一种视觉状态空间模型，结合了卷积神经网络（CNNs）和视觉Transformer（ViTs）的优势，实现了线性复杂度而不牺牲全局感知。引入了Cross-Scan模块（CSM）来解决方向敏感问题，能够在各种视觉感知任务中展现出优异的性能，并且随着图像分辨率的增加，相对已有基准模型表现出更为显著的优势。

AIM

这篇论文介绍了AIM，这是一组使用自回归目标进行预训练的视觉模型。这些模型受其文本对应物，即大型语言模型（LLMs）的启发，并表现出类似的扩展特性。具体来说，我们强调了两个关键发现：（1）视觉特征的性能随着模型容量和数据量的增加而提高，（2）目标函数的价值与模型在下游任务上的性能相关。我们通过在20亿张图像上对70亿参数的AIM进行预训练，实现了在ImageNet-1k上使用冻结主干达到84.0%的准确率。有趣的是，即使在这个规模上，我们观察到性能没有饱和的迹象，这表明AIM可能代表了训练大规模视觉模型的新前沿。AIM的预训练类似于LLMs的预训练，并不需要任何图像特定的策略来稳定大规模训练。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase