大型语言模型

# 大型语言模型

Upstage AI

Upstage AI利用强大的大型语言模型和文档处理引擎，为企业转变工作流程和提升效率。其主要优点包括高精度、高性能、适用于各行业的定制解决方案。定位于为领先企业赋能，提升工作效率。

Seed-Coder

Seed-Coder 是字节跳动 Seed 团队推出的开源代码大型语言模型系列，包含基础、指令和推理模型，旨在通过最小的人力投入，自主管理代码训练数据，从而显著提升编程能力。该模型在同类开源模型中表现优越，适合于各种编码任务，定位于推动开源 LLM 生态的发展，适用于研究和工业界。

ZeroSearch

ZeroSearch 是一种新颖的强化学习框架，旨在激励大型语言模型（LLMs）的搜索能力，而无需与实际搜索引擎进行交互。通过监督微调，ZeroSearch 转变 LLM 为能够生成相关和无关文档的检索模块，并引入课程推出机制来逐步激发模型的推理能力。该技术的主要优点在于其性能优于基于真实搜索引擎的模型，同时产生的 API 成本为零。它适用于各种规模的 LLM，并支持不同的强化学习算法，适合需要高效检索能力的研究和开发团队。

NoteLLM

NoteLLM 是一款专注于用户生成内容的可检索大型语言模型，旨在提升推荐系统的性能。通过将主题生成与嵌入生成相结合，NoteLLM 提高了对笔记内容的理解与处理能力。该模型采用了端到端的微调策略，适用于多模态输入，增强了在多样化内容领域的应用潜力。其重要性在于能够有效提升笔记推荐的准确性和用户体验，特别适用于小红书等 UGC 平台。

SWE-RL

SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术，旨在利用开源软件演变数据提升模型在软件工程任务中的表现。该技术通过规则驱动的奖励机制，优化模型的推理能力，使其能够更好地理解和生成高质量的代码。SWE-RL 的主要优点在于其创新性的强化学习方法和对开源数据的有效利用，为软件工程领域带来了新的可能性。该技术目前处于研究阶段，尚未明确商业化定价，但其在提升开发效率和代码质量方面具有显著潜力。

Coding-Tutor

Coding-Tutor是一个基于大型语言模型（LLM）的编程辅导工具，旨在通过对话式交互帮助学习者提升编程能力。它通过Trace-and-Verify（Traver）工作流，结合知识追踪和逐轮验证，解决编程辅导中的关键挑战。该工具不仅适用于编程教育，还可扩展到其他任务辅导场景，帮助根据学习者的知识水平调整教学内容。项目开源，支持社区贡献。

Goedel-Prover

Goedel-Prover 是一款专注于自动化定理证明的开源大型语言模型。它通过将自然语言数学问题翻译为形式化语言（如 Lean 4），并生成形式化证明，显著提升了数学问题的自动化证明效率。该模型在 miniF2F 基准测试中达到了 57.6% 的成功率，超越了其他开源模型。其主要优点包括高性能、开源可扩展性以及对数学问题的深度理解能力。Goedel-Prover 旨在推动自动化定理证明技术的发展，并为数学研究和教育提供强大的工具支持。

OmniParser-v2.0

Omniparser V2.0

OmniParser 是微软开发的一种先进的图像解析技术，旨在将不规则的屏幕截图转换为结构化的元素列表，包括可交互区域的位置和图标的功能描述。它通过深度学习模型，如 YOLOv8 和 Florence-2，实现了对 UI 界面的高效解析。该技术的主要优点在于其高效性、准确性和广泛的适用性。OmniParser 可以显著提高基于大型语言模型（LLM）的 UI 代理的性能，使其能够更好地理解和操作各种用户界面。它在多种应用场景中表现出色，如自动化测试、智能助手开发等。OmniParser 的开源特性和灵活的许可证使其成为开发者和研究人员的有力工具。

Mistral-Small-24B-Instruct-2501

Mistral Small 24B Instruct 2501

Mistral Small 24B 是一款由 Mistral AI 团队开发的大型语言模型，拥有 240 亿参数，支持多语言对话和指令处理。该模型通过指令微调，能够生成高质量的文本内容，适用于聊天、写作、编程辅助等多种场景。其主要优点包括强大的语言生成能力、多语言支持以及高效推理能力。该模型适合需要高性能语言处理的个人和企业用户，具有开源许可，支持本地部署和量化优化，适合对数据隐私有要求的场景。

聊天机器人

DeepSeek-R1-Distill-Llama-70B

Deepseek R1 Distill Llama 70B

DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型，基于 Llama-70B 架构并通过强化学习进行优化。该模型在推理、对话和多语言任务中表现出色，支持多种应用场景，包括代码生成、数学推理和自然语言处理。其主要优点是高效的推理能力和对复杂问题的解决能力，同时支持开源和商业使用。该模型适用于需要高性能语言生成和推理能力的企业和研究机构。

InternVL2_5-78B-MPO

Internvl2 5 78B MPO

InternVL2.5-MPO是一个基于InternVL2.5和混合偏好优化（MPO）的多模态大型语言模型系列。它在多模态任务中表现出色，通过整合新近增量预训练的InternViT与多种预训练的大型语言模型（LLMs），如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。该模型系列在多模态推理偏好数据集MMPR上进行了训练，包含约300万个样本，通过有效的数据构建流程和混合偏好优化技术，提升了模型的推理能力和回答质量。

self-adaptive-llms

Self Adaptive Llms

SakanaAI/self-adaptive-llms是一个名为Transformer²的自适应框架，旨在解决传统微调方法计算密集且处理多样化任务能力静态的挑战。该框架能够在推理过程中通过两步机制实时调整大型语言模型（LLMs）以适应未见任务：首先，调度系统识别任务属性；然后，使用强化学习训练的任务特定'专家'向量被动态混合，以获得针对输入提示的目标行为。主要优点包括实时任务适应性、计算效率和灵活性。该项目由SakanaAI团队开发，目前在GitHub上开源，拥有195颗星和12次分叉。

InternLM3-8B-Instruct

Internlm3 8B Instruct

InternLM3-8B-Instruct是InternLM团队开发的大型语言模型，具有卓越的推理能力和知识密集型任务处理能力。该模型在仅使用4万亿高质量词元进行训练的情况下，实现了比同级别模型低75%以上的训练成本，同时在多个基准测试中超越了Llama3.1-8B和Qwen2.5-7B等模型。它支持深度思考模式，能够通过长思维链解决复杂的推理任务，同时也具备流畅的用户交互能力。该模型基于Apache-2.0许可证开源，适用于需要高效推理和知识处理的各种应用场景。

MinMo

MinMo是阿里巴巴集团通义实验室开发的一款多模态大型语言模型，拥有约80亿参数，专注于实现无缝语音交互。它通过多个阶段的训练，包括语音到文本对齐、文本到语音对齐、语音到语音对齐和全双工交互对齐，在140万小时的多样化语音数据和广泛的语音任务上进行训练。MinMo在语音理解和生成的各种基准测试中达到了最先进的性能，同时保持了文本大型语言模型的能力，并支持全双工对话，即用户和系统之间的同时双向通信。此外，MinMo还提出了一种新颖且简单的语音解码器，在语音生成方面超越了以往的模型。MinMo的指令遵循能力得到了增强，支持根据用户指令控制语音生成，包括情感、方言和语速等细节，并模仿特定的声音。MinMo的语音到文本延迟约为100毫秒，全双工延迟理论上约为600毫秒，实际约为800毫秒。MinMo的开发旨在克服以往对齐多模态模型的主要限制，为用户提供更自然、流畅和人性化的语音交互体验。

Dria-Agent-a-3B

Dria Agent A 3B

Dria-Agent-a-3B是一个基于Qwen2.5-Coder系列的大型语言模型，专注于代理应用。它采用Pythonic函数调用方式，具有单次并行多函数调用、自由形式推理和动作以及即时复杂解决方案生成等优势。该模型在多个基准测试中表现出色，如Berkeley Function Calling Leaderboard (BFCL)、MMLU-Pro和Dria-Pythonic-Agent-Benchmark (DPAB)。模型大小为3.09B参数，支持BF16张量类型。

开发与工具

Dria-Agent-a-7B

Dria Agent A 7B

Dria-Agent-a-7B是一个基于Qwen2.5-Coder系列训练的大型语言模型，专注于代理应用。它采用Pythonic函数调用方式，与传统JSON函数调用方法相比，具有单次并行多函数调用、自由形式推理和动作以及即时复杂解决方案生成等优势。该模型在多个基准测试中表现出色，包括Berkeley Function Calling Leaderboard (BFCL)、MMLU-Pro和Dria-Pythonic-Agent-Benchmark (DPAB)。模型大小为76.2亿参数，采用BF16张量类型，支持文本生成任务。其主要优点包括强大的编程辅助能力、高效的函数调用方式以及在特定领域的高准确率。该模型适用于需要复杂逻辑处理和多步骤任务执行的应用场景，如自动化编程、智能代理等。目前，该模型在Hugging Face平台上提供，供用户免费使用。

Dria-Agent-α

Dria-Agent-α是Hugging Face推出的大型语言模型（LLM）工具交互框架。它通过Python代码来调用工具，与传统的JSON模式相比，能更充分地发挥LLM的推理能力，使模型能够以更接近人类自然语言的方式进行复杂问题的解决。该框架利用Python的流行性和接近伪代码的语法，使LLM在代理场景中表现更佳。Dria-Agent-α的开发使用了合成数据生成工具Dria，通过多阶段管道生成逼真的场景，训练模型进行复杂问题解决。目前已有Dria-Agent-α-3B和Dria-Agent-α-7B两个模型在Hugging Face上发布。

开发与工具

Llama-3-Patronus-Lynx-8B-Instruct-Q4_K_M-GGUF

Llama 3 Patronus Lynx 8B Instruct Q4 K M GGUF

该模型是量化版大型语言模型，采用4位量化技术，降低存储与计算需求，适用于自然语言处理，参数量8.03B，免费且可用于非商业用途，适合资源受限环境下高性能语言应用需求者。

InternVL2_5-38B-MPO

Internvl2 5 38B MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化（MPO）构建。该系列模型在多模态任务中表现出色，能够处理图像、文本和视频数据，并生成高质量的文本响应。模型采用'ViT-MLP-LLM'范式，通过像素unshuffle操作和动态分辨率策略优化视觉处理能力。此外，模型还引入了多图像和视频数据的支持，进一步扩展了其应用场景。InternVL2.5-MPO在多模态能力评估中超越了多个基准模型，证明了其在多模态领域的领先地位。

Agent Laboratory

Agent Laboratory

Agent Laboratory是一个由Samuel Schmidgall等人开发的项目，旨在通过大型语言模型驱动的专门代理，帮助研究人员完成从文献综述到实验执行再到报告撰写的整个研究流程。它不是为了取代人类的创造力，而是为了补充创造力，使研究人员能够专注于构思和批判性思维，同时自动化编码和文档等重复性和耗时的任务。该工具的源代码采用MIT许可证，允许在遵守MIT许可证条款的情况下使用、修改和分发代码。

InternVL2_5-26B-MPO-AWQ

Internvl2 5 26B MPO AWQ

InternVL2_5-26B-MPO-AWQ 是由 OpenGVLab 开发的多模态大型语言模型，旨在通过混合偏好优化提升模型的推理能力。该模型在多模态任务中表现出色，能够处理图像和文本之间的复杂关系。它采用了先进的模型架构和优化技术，使其在多模态数据处理方面具有显著优势。该模型适用于需要高效处理和理解多模态数据的场景，如图像描述生成、多模态问答等。其主要优点包括强大的推理能力和高效的模型架构。

AnyParser Pro

AnyParser Pro 是由 CambioML 开发的一款创新的文档解析工具，它利用大型语言模型（LLM）技术，能够快速准确地从 PDF、PPT 和图像文件中提取出完整的文本内容。该技术的主要优点在于其高效的处理速度和高精度的解析能力，能够显著提高文档处理的效率。AnyParser Pro 的背景信息显示，它是由 Y Combinator 孵化的初创公司 CambioML 推出的，旨在为用户提供一种简单易用且功能强大的文档解析解决方案。目前，该产品提供免费试用，用户可以通过获取 API 密钥来访问其功能。

Sonus-1

Sonus-1是Sonus AI推出的一系列大型语言模型（LLMs），旨在推动人工智能的边界。这些模型以其高性能和多应用场景的多功能性而设计，包括Sonus-1 Mini、Sonus-1 Air、Sonus-1 Pro和Sonus-1 Pro (w/ Reasoning)等不同版本，以满足不同需求。Sonus-1 Pro (w/ Reasoning)在多个基准测试中表现突出，特别是在推理和数学问题上，展现了其超越其他专有模型的能力。Sonus AI致力于开发高性能、可负担、可靠且注重隐私的大型语言模型。

InternVL2_5-26B-MPO

Internvl2 5 26B MPO

InternVL2_5-26B-MPO是一个多模态大型语言模型（MLLM），它在InternVL2.5的基础上，通过混合偏好优化（Mixed Preference Optimization, MPO）进一步提升了模型性能。该模型能够处理包括图像、文本在内的多模态数据，广泛应用于图像描述、视觉问答等场景。它的重要性在于能够理解和生成与图像内容紧密相关的文本，推动了多模态人工智能的边界。产品背景信息包括其在多模态任务中的卓越性能，以及在OpenCompass Learderboard中的评估结果。该模型为研究者和开发者提供了强大的工具，以探索和实现多模态人工智能的潜力。

InternVL2_5-8B-MPO-AWQ

Internvl2 5 8B MPO AWQ

InternVL2_5-8B-MPO-AWQ是OpenGVLab推出的一款多模态大型语言模型，它基于InternVL2.5系列，并采用混合偏好优化（Mixed Preference Optimization, MPO）技术。该模型在视觉和语言的理解与生成方面展现了卓越的性能，尤其在多模态任务中表现出色。它通过结合视觉部分InternViT和语言部分InternLM或Qwen，使用随机初始化的MLP投影器进行增量预训练，实现了对图像和文本的深入理解与交互。该技术的重要性在于它能够处理包括单图像、多图像以及视频数据在内的多种数据类型，为多模态人工智能领域提供了新的解决方案。

InternVL2_5-8B-MPO

Internvl2 5 8B MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，它基于InternVL2.5和混合偏好优化构建。该模型整合了新增量预训练的InternViT与各种预训练的大型语言模型，包括InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL2.5-MPO在新版本中保留了与InternVL 2.5及其前身相同的模型架构，遵循“ViT-MLP-LLM”范式。该模型支持多图像和视频数据，通过混合偏好优化（MPO）进一步提升模型性能，使其在多模态任务中表现更优。

HuatuoGPT-o1-8B

Huatuogpt O1 8B

HuatuoGPT-o1-8B 是一个专为高级医疗推理设计的医疗领域大型语言模型（LLM）。它在提供最终响应之前会生成一个复杂的思考过程，反映并完善其推理过程。该模型基于LLaMA-3.1-8B构建，支持英文，并且采用'thinks-before-it-answers'的方法，输出格式包括推理过程和最终响应。此模型在医疗领域具有重要意义，因为它能够处理复杂的医疗问题并提供深思熟虑的答案，这对于提高医疗决策的质量和效率至关重要。

HuatuoGPT-o1

HuatuoGPT-o1是一个专为医疗复杂推理设计的大语言模型，能够识别错误、探索替代策略并完善答案。该模型通过利用可验证的医疗问题和专门的医疗验证器，推进了复杂推理的发展。HuatuoGPT-o1的主要优点包括：使用验证器指导复杂推理轨迹的搜索，以微调大型语言模型；应用基于验证器奖励的强化学习（PPO）进一步提升复杂推理能力。HuatuoGPT-o1的开源模型、数据和代码，使其在医疗教育和研究领域具有重要价值。

InternVL2_5-4B-MPO-AWQ

Internvl2 5 4B MPO AWQ

InternVL2_5-4B-MPO-AWQ是一个多模态大型语言模型（MLLM），专注于提升模型在图像和文本交互任务中的表现。该模型基于InternVL2.5系列，并通过混合偏好优化（MPO）进一步提升性能。它能够处理包括单图像和多图像、视频数据在内的多种输入，适用于需要图像和文本交互理解的复杂任务。InternVL2_5-4B-MPO-AWQ以其卓越的多模态能力，为图像-文本到文本的任务提供了一个强大的解决方案。

InternVL2_5-4B-MPO

Internvl2 5 4B MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列，基于InternVL2.5和混合偏好优化构建。该模型集成了新增量预训练的InternViT和各种预训练的大型语言模型，如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。它支持多图像和视频数据，并且在多模态任务中表现出色，能够理解和生成与图像相关的文本内容。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase