数学推理

# 数学推理

Skywork-OR1

Skywork-OR1是由昆仑万维天工团队开发的高性能数学代码推理模型。该模型系列在同等参数规模下实现了业界领先的推理性能，突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。Skywork-OR1系列包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款模型，分别聚焦数学推理、通用推理和高性能推理任务。此次开源不仅涵盖模型权重，还全面开放了训练数据集和完整训练代码，所有资源均已上传至GitHub和Huggingface平台，为AI社区提供了完全可复现的实践参考。这种全方位的开源策略有助于推动整个AI社区在推理能力研究上的共同进步。

混元T1

混元T1 是腾讯推出的超大规模推理模型，基于强化学习技术，通过大量后训练显著提升推理能力。它在长文处理和上下文捕捉上表现突出，同时优化了计算资源的消耗，具备高效的推理能力。适用于各类推理任务，尤其在数学、逻辑推理等领域表现优异。该产品以深度学习为基础，结合实际反馈不断优化，适合科研、教育等多个领域的应用。

DeepSeek-R1-Distill-Qwen-7B

Deepseek R1 Distill Qwen 7B

DeepSeek-R1-Distill-Qwen-7B 是一个经过强化学习优化的推理模型，基于 Qwen-7B 进行了蒸馏优化。它在数学、代码和推理任务上表现出色，能够生成高质量的推理链和解决方案。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和效率，适用于需要复杂推理和逻辑分析的场景。

模型训练与部署

rStar-Math

rStar-Math是一项研究，旨在证明小型语言模型（SLMs）能够在不依赖于更高级模型的情况下，与OpenAI的o1模型相媲美甚至超越其数学推理能力。该研究通过蒙特卡洛树搜索（MCTS）实现“深度思考”，其中数学策略SLM在基于SLM的流程奖励模型的指导下进行测试时搜索。rStar-Math引入了三种创新方法来应对训练两个SLM的挑战，通过4轮自我演化和数百万个合成解决方案，将SLMs的数学推理能力提升到最先进水平。该模型在MATH基准测试中显著提高了性能，并在AIME竞赛中表现优异。

模型训练与部署

Eurus-2-7B-SFT

Eurus-2-7B-SFT是基于Qwen2.5-Math-7B模型进行微调的大型语言模型，专注于数学推理和问题解决能力的提升。该模型通过模仿学习（监督微调）的方式，学习推理模式，能够有效解决复杂的数学问题和编程任务。其主要优点在于强大的推理能力和对数学问题的准确处理，适用于需要复杂逻辑推理的场景。该模型由PRIME-RL团队开发，旨在通过隐式奖励的方式提升模型的推理能力。

QVQ-72B-Preview

QVQ 72B Preview

QVQ-72B-Preview是由Qwen团队开发的实验性研究模型，专注于增强视觉推理能力。该模型在多学科理解和推理方面展现出强大的能力，特别是在数学推理任务上取得了显著的进步。尽管在视觉推理方面取得了进步，但QVQ并不完全取代Qwen2-VL-72B的能力，在多步视觉推理中可能会逐渐失去对图像内容的关注，导致幻觉。此外，QVQ在基本识别任务上并没有显示出比Qwen2-VL-72B更显著的改进。

O1-Journey

O1-Journey是由上海交通大学GAIR研究组发起的一个项目，旨在复制和重新想象OpenAI的O1模型的能力。该项目提出了“旅程学习”的新训练范式，并构建了首个成功整合搜索和学习在数学推理中的模型。这个模型通过试错、纠正、回溯和反思等过程，成为处理复杂推理任务的有效方法。

MathΣtral

MathΣtral是一款为数学推理和科学发现而设计的7B规模的AI模型，拥有32k的上下文窗口，发布于Apache 2.0许可下。它在多步复杂逻辑推理的高级数学问题上展现出卓越的性能，是Mistral AI团队为科学界贡献的成果，旨在加强学术项目的支持。MathΣtral在STEM领域具有专业特长，其推理能力在同类规模模型中达到了行业标准基准的前沿水平。

DeepSeek-Coder-V2-Lite-Instruct

Deepseek Coder V2 Lite Instruct

DeepSeek-Coder-V2是一个开源的Mixture-of-Experts代码语言模型，性能可与GPT4-Turbo相媲美，在代码特定任务上表现突出。它通过额外的6万亿个token进一步预训练，增强了编码和数学推理能力，同时保持了在一般语言任务上的相似性能。与DeepSeek-Coder-33B相比，在代码相关任务、推理和一般能力方面都有显著进步。此外，它支持的编程语言从86种扩展到338种，上下文长度从16K扩展到128K。

InternLM-Math-Plus

Internlm Math Plus

InternLM-Math-Plus 是一个最新的双语（英文和中文）开源大型语言模型（LLM），专注于数学推理，具有解决、证明、验证和增强数学问题的能力。它在非正式数学推理（如思维链和代码解释）和正式数学推理（如LEAN 4翻译和证明）方面都有显著的性能提升。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase