多模态模型

# 多模态模型

Awesome GPT-4o Images

Awesome GPT 4o Images

Awesome GPT-4o Images 是一个展示 OpenAI 最新多模态模型 GPT-4o 生成的图片和提示的集合。该产品充分展示了 GPT-4o 在文本与图像理解方面的能力，支持多种艺术风格的生成。它适合设计师、艺术创作者和任何对 AI 艺术感兴趣的人。该项目是免费开放的，旨在激发创作灵感并推动 AI 艺术的发展。

StarVector

StarVector 是一个先进的生成模型，旨在将图像和文本指令转化为高质量的可缩放矢量图形（SVG）代码。其主要优点在于能够处理复杂的 SVG 元素，并在各种图形风格和复杂性上表现出色。作为开放源代码资源，StarVector 推动了图形设计的创新和效率，适用于设计、插图和技术文档等多种应用场景。

tablegpt-agent

TableGPT-agent 是一个基于 TableGPT2 的预构建代理模型，专为处理表格数据的问答任务而设计。它基于 Langgraph 库开发，提供用户友好的交互界面，能够高效处理与表格相关的复杂问题。TableGPT2 是一个大型多模态模型，能够将表格数据与自然语言处理相结合，为数据分析和知识提取提供强大的技术支持。该模型适用于需要快速准确处理表格数据的场景，如数据分析、商业智能和学术研究等。

Mobile-Agent-E

Mobile-Agent-E 是一款基于大型多模态模型（LMM）的移动助手，旨在帮助用户高效完成复杂的多步骤任务。它通过分层多智能体框架实现自我进化，能够从过去的任务中学习并改进。该产品的主要优点在于其强大的推理能力和对复杂任务的处理能力，尤其是在长周期、多应用交互的任务中表现出色。它适用于需要高效完成复杂移动任务的用户，如商务人士、研究人员等，目前处于研究阶段，未明确具体价格。

Aria-UI

Aria-UI是一个专为GUI指令视觉定位而设计的大规模多模态模型。它采用纯视觉方法，不依赖辅助输入，能够适应多样化的规划指令，并通过合成多样化、高质量的指令样本来适应不同的任务。Aria-UI在离线和在线代理基准测试中均创下新的最高记录，超越了仅依赖视觉和依赖AXTree的基线。

FlagEval

FlagEval是一个模型评测平台，专注于大语言模型和多模态模型的评测。它提供了一个公正、透明的环境，让不同的模型在同一标准下进行比较，帮助研究者和开发者了解模型性能，推动人工智能技术的发展。该平台涵盖了对话模型、视觉语言模型等多种模型类型，支持开源和闭源模型的评测，并提供专项评测如K12学科测验和金融量化交易评测。

Apollo-LMMs

Apollo是一个专注于视频理解的先进大型多模态模型家族。它通过系统性地探索视频-LMMs的设计空间，揭示了驱动性能的关键因素，提供了优化模型性能的实用见解。Apollo通过发现'Scaling Consistency'，使得在较小模型和数据集上的设计决策能够可靠地转移到更大的模型上，大幅降低计算成本。Apollo的主要优点包括高效的设计决策、优化的训练计划和数据混合，以及一个新型的基准测试ApolloBench，用于高效评估。

OmniAudio-2.6B

OmniAudio-2.6B是一个2.6B参数的多模态模型，能够无缝处理文本和音频输入。该模型结合了Gemma-2B、Whisper turbo和一个自定义投影模块，与传统的将ASR和LLM模型串联的方法不同，它将这两种能力统一在一个高效的架构中，以最小的延迟和资源开销实现。这使得它能够安全、快速地在智能手机、笔记本电脑和机器人等边缘设备上直接处理音频文本。

ultravox-v0_4_1-mistral-nemo

Ultravox V0 4 1 Mistral Nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型（LLM）。该模型能够同时处理语音和文本输入，例如，一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发，采用MIT许可。

ultravox-v0_4_1-llama-3_1-8b

Ultravox V0 4 1 Llama 3 1 8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色，且没有偏好调整，适用于语音代理、语音到语音翻译、语音分析等场景。

TableGPT2

TableGPT2是一个大型多模态模型，专门针对表格数据进行预训练和微调，以解决实际应用中表格数据整合不足的问题。该模型在超过593.8K的表格和2.36M的高质量查询-表格-输出元组上进行了预训练和微调，规模前所未有。TableGPT2的关键创新之一是其新颖的表格编码器，专门设计用于捕获模式级别和单元格级别的信息，增强了模型处理模糊查询、缺失列名和不规则表格的能力。在23个基准测试指标上，TableGPT2在7B模型上平均性能提升了35.20%，在72B模型上提升了49.32%，同时保持了强大的通用语言和编码能力。

LVBench

LVBench是一个专门设计用于长视频理解的基准测试，旨在推动多模态大型语言模型在理解数小时长视频方面的能力，这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

MiniGPT4-Video

MiniGPT4-Video是为视频理解设计的多模态大模型，能处理时态视觉数据和文本数据，配标题、宣传语，适用于视频问答。基于MiniGPT-v2，结合视觉主干EVA-CLIP，训练多阶段阶段，包括大规模视频-文本预训练和视频问题解答微调。在MSVD、MSRVTT、TGIF和TVQA基准上取得显著提升。定价未知。

冒泡鸭AI

冒泡鸭AI是基于自研多模态大模型开发的AI互动平台，提供拟人、工具、内容、游戏、娱乐等多个领域的海量智能体。平台具有超长的上下文记忆能力和实时联网搜索能力，能够深度理解用户意图，并提供即时、准确、个性化的回复和选择。用户还可以定制个性化的AI智能体，以满足个性化的需求和偏好。

聊天机器人

WebVoyager

WebVoyager是一款创新的大型多模态模型（LMM）驱动的网络代理，能够通过与现实世界的网站交互，端到端完成用户指令。我们提出了一种新的网络代理评估协议，以解决开放式网络代理任务的自动评估挑战，利用GPT-4V的强大多模态理解能力。我们从15个广泛使用的网站收集了真实世界任务，用于评估我们的代理。我们展示了WebVoyager实现了55.7%的任务成功率，明显超过了GPT-4（所有工具）和WebVoyager（仅文本）设置的性能，突显了WebVoyager在实际应用中的卓越能力。我们发现我们提出的自动评估与人类判断达成了85.3%的一致性，为在真实世界环境中进一步发展网络代理铺平了道路。

Adept Fuyu-Heavy

Adept Fuyu Heavy

Adept Fuyu-Heavy是一款新型的多模态模型，专为数字代理设计。它在多模态推理方面表现出色，尤其在UI理解方面表现出色，同时在传统的多模态基准测试中也表现良好。此外，它展示了我们可以扩大Fuyu架构并获得所有相关好处的能力，包括处理任意大小/形状的图像和有效地重复使用现有的变压器优化。它还具有匹配或超越相同计算级别模型性能的能力，尽管需要将部分容量用于图像建模。

Multimodal-Maestro

Multimodal Maestro

Multimodal-Maestro为您提供更多对大型多模态模型的控制，以获得您想要的输出。通过更有效的提示策略，您可以让多模态模型执行您以前不知道（或认为不可能）的任务。想知道它是如何工作的吗？试试我们的HF空间！该项目仍在建设中，API可能会发生变化。

AI工具网址目录

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase