强化学习

# 强化学习

ZeroSearch

ZeroSearch 是一种新颖的强化学习框架，旨在激励大型语言模型（LLMs）的搜索能力，而无需与实际搜索引擎进行交互。通过监督微调，ZeroSearch 转变 LLM 为能够生成相关和无关文档的检索模块，并引入课程推出机制来逐步激发模型的推理能力。该技术的主要优点在于其性能优于基于真实搜索引擎的模型，同时产生的 API 成本为零。它适用于各种规模的 LLM，并支持不同的强化学习算法，适合需要高效检索能力的研究和开发团队。

Search-R1 是一个强化学习框架，旨在训练能够进行推理和调用搜索引擎的语言模型（LLMs）。它基于 veRL 构建，支持多种强化学习方法和不同的 LLM 架构，使得在工具增强的推理研究和开发中具备高效性和可扩展性。

模型训练与部署

该模型通过强化学习和高质量推理轨迹的掩蔽自监督微调，实现了对扩散大语言模型的推理能力的提升。此技术的重要性在于它能够优化模型的推理过程，减少计算成本，同时保证学习动态的稳定性。适合希望在写作和推理任务中提升效率的用户。

DeepCoder

DeepCoder-14B-Preview 是一个基于强化学习的代码推理大型语言模型，能够处理长上下文，具有 60.6% 的通过率，适用于编程任务和自动化代码生成。该模型的优势在于其训练方法的创新，提供了比其他模型更优的性能，且完全开源，支持广泛的社区应用和研究。

混元T1

混元T1 是腾讯推出的超大规模推理模型，基于强化学习技术，通过大量后训练显著提升推理能力。它在长文处理和上下文捕捉上表现突出，同时优化了计算资源的消耗，具备高效的推理能力。适用于各类推理任务，尤其在数学、逻辑推理等领域表现优异。该产品以深度学习为基础，结合实际反馈不断优化，适合科研、教育等多个领域的应用。

Light-R1-14B-DS

Light R1 14B DS

Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。该模型基于 DeepSeek-R1-Distill-Qwen-14B 进行强化学习训练，在 AIME24 和 AIME25 数学竞赛基准测试中分别达到了 74.0 和 60.2 的高分，超越了许多 32B 参数量的模型。它在轻量级预算下成功实现了对已经长链推理微调模型的强化学习尝试，为开源社区提供了一个强大的数学模型工具。该模型的开源有助于推动自然语言处理在教育领域的应用，特别是数学问题解决方面，为研究人员和开发者提供了宝贵的研究基础和实践工具。

Light-R1

Light-R1 是一个由 Qihoo360 开发的开源项目，旨在通过课程式监督微调（SFT）、直接偏好优化（DPO）和强化学习（RL）训练长链推理模型。该项目通过去污染数据集和高效的训练方法，实现了从零开始的长链推理能力。其主要优点包括开源的训练数据、低成本的训练方式以及在数学推理领域的卓越性能。项目背景基于当前长链推理模型的训练需求，旨在提供一种透明且可复现的训练方法。项目目前免费开源，适合研究机构和开发者使用。

模型训练与部署

R1-Omni

R1-Omni 是一个创新的多模态情绪识别模型，通过强化学习提升模型的推理能力和泛化能力。该模型基于 HumanOmni-0.5B 开发，专注于情绪识别任务，能够通过视觉和音频模态信息进行情绪分析。其主要优点包括强大的推理能力、显著提升的情绪识别性能以及在分布外数据上的出色表现。该模型适用于需要多模态理解的场景，如情感分析、智能客服等领域，具有重要的研究和应用价值。

Steiner-32b-preview

Steiner 32b Preview

Steiner 是由 Yichao 'Peak' Ji 开发的推理模型系列，专注于通过强化学习在合成数据上训练，能够在推理时探索多种路径并自主验证或回溯。该模型的目标是复现 OpenAI o1 的推理能力，并验证推理时的扩展曲线。Steiner-preview 是一个正在进行中的项目，其开源目的是为了分享知识并获取更多真实用户的反馈。尽管该模型在某些基准测试中表现出色，但尚未完全实现 OpenAI o1 的推理扩展能力，因此仍处于开发阶段。

NotaGen

NotaGen 是一款创新的符号音乐生成模型，通过预训练、微调和强化学习三个阶段提升音乐生成质量。它利用大语言模型技术，能够生成高质量的古典乐谱，为音乐创作带来新的可能性。该模型的主要优点包括高效生成、风格多样和高质量输出。它适用于音乐创作、教育和研究等领域，具有广泛的应用前景。

SWE-RL

SWE-RL 是由 Facebook Research 提出的一种基于强化学习的大型语言模型推理技术，旨在利用开源软件演变数据提升模型在软件工程任务中的表现。该技术通过规则驱动的奖励机制，优化模型的推理能力，使其能够更好地理解和生成高质量的代码。SWE-RL 的主要优点在于其创新性的强化学习方法和对开源数据的有效利用，为软件工程领域带来了新的可能性。该技术目前处于研究阶段，尚未明确商业化定价，但其在提升开发效率和代码质量方面具有显著潜力。

MLGym

MLGym是由Meta的GenAI团队和UCSB NLP团队开发的一个开源框架和基准，用于训练和评估AI研究代理。它通过提供多样化的AI研究任务，推动强化学习算法的发展，帮助研究人员在真实世界的研究场景中训练和评估模型。该框架支持多种任务，包括计算机视觉、自然语言处理和强化学习等领域，旨在为AI研究提供一个标准化的测试平台。

模型训练与部署

VLM-R1

VLM-R1 是一种基于强化学习的视觉语言模型，专注于视觉理解任务，如指代表达理解（Referring Expression Comprehension, REC）。该模型通过结合 R1（Reinforcement Learning）和 SFT（Supervised Fine-Tuning）方法，展示了在领域内和领域外数据上的出色性能。VLM-R1 的主要优点包括其稳定性和泛化能力，使其能够在多种视觉语言任务中表现出色。该模型基于 Qwen2.5-VL 构建，利用了先进的深度学习技术，如闪存注意力机制（Flash Attention 2），以提高计算效率。VLM-R1 旨在为视觉语言任务提供一种高效且可靠的解决方案，适用于需要精确视觉理解的应用场景。

NovaSky

NovaSky 是一个专注于提升代码生成和推理模型性能的人工智能技术平台。它通过创新的测试时扩展技术（如 S*）、强化学习蒸馏推理等技术，显著提升了非推理模型的性能，使其在代码生成领域表现出色。该平台致力于为开发者提供高效、低成本的模型训练和优化解决方案，帮助他们在编程任务中实现更高的效率和准确性。NovaSky 的技术背景源于 Sky Computing Lab @ Berkeley，具有强大的学术支持和前沿的技术研究基础。目前，NovaSky 提供多种模型优化方法，包括但不限于推理成本优化和模型蒸馏技术，满足不同开发者的需求。

开发与工具

AlphaMaze

AlphaMaze 是一款专为解决视觉推理任务而设计的解码器语言模型。它通过针对迷宫解谜任务的训练，展示了语言模型在视觉推理方面的潜力。该模型基于 15 亿参数的 Qwen 模型构建，并通过监督微调（SFT）和强化学习（RL）进行训练。其主要优点在于能够将视觉任务转化为文本格式进行推理，从而弥补传统语言模型在空间理解上的不足。该模型的开发背景是提升 AI 在视觉任务上的表现，尤其是在需要逐步推理的场景中。目前，AlphaMaze 作为研究项目，暂未明确其商业化定价和市场定位。

HOMIEtele

HOMIE 是一种创新的人形机器人遥操作解决方案，旨在通过强化学习和低成本的外骨骼硬件系统，实现精准的行走与操作任务。该技术的重要性在于它解决了传统遥操作系统的低效性和不稳定性问题，通过人体运动捕捉和强化学习训练框架，使机器人能够更加自然地执行复杂的任务。其主要优点包括高效的任务完成能力、无需复杂的运动捕捉设备以及快速的训练时间。该产品主要面向机器人研究机构、制造业和物流行业，价格未明确公开，但其硬件系统成本较低，具有较高的性价比。

DeepScaleR-1.5B-Preview

Deepscaler 1.5B Preview

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型，专注于提升数学问题解决能力。该模型通过分布式强化学习算法，显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发，旨在推动人工智能在教育领域的应用，尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可，完全免费供研究人员和开发者使用。

R1-V

R1-V是一个专注于强化视觉语言模型（VLM）泛化能力的项目。它通过可验证奖励的强化学习（RLVR）技术，显著提升了VLM在视觉计数任务中的泛化能力，尤其是在分布外（OOD）测试中表现出色。该技术的重要性在于，它能够在极低的成本下（仅需2.62美元的训练成本），实现对大规模模型的高效优化，为视觉语言模型的实用化提供了新的思路。项目背景基于对现有VLM训练方法的改进，目标是通过创新的训练策略，提升模型在复杂视觉任务中的表现。R1-V的开源性质也使其成为研究者和开发者探索和应用先进VLM技术的重要资源。

Tülu 3 405B

Tülu 3 405B 是由 Allen Institute for AI 开发的开源语言模型，具有 4050 亿参数。该模型通过创新的强化学习框架（RLVR）提升性能，尤其在数学和指令跟随任务中表现出色。它基于 Llama-405B 模型进行优化，采用监督微调、偏好优化等技术。Tülu 3 405B 的开源性质使其成为研究和开发领域的强大工具，适用于需要高性能语言模型的各种应用场景。

CUA

Computer-Using Agent (CUA) 是 OpenAI 开发的一种先进的人工智能模型，结合了 GPT-4o 的视觉能力和通过强化学习的高级推理能力。它能够像人类一样与图形用户界面（GUI）交互，无需依赖特定操作系统的 API 或网络接口。CUA 的灵活性使其能够在多种数字环境中执行任务，如填写表单、浏览网页等。这一技术的出现标志着 AI 发展的下一步，为 AI 在日常工具中的应用开辟了新的可能性。CUA 目前处于研究预览阶段，通过 Operator 提供给美国的 Pro 用户使用。

DeepSeek-R1-Distill-Qwen-1.5B

Deepseek R1 Distill Qwen 1.5B

DeepSeek-R1-Distill-Qwen-1.5B 是由 DeepSeek 团队开发的开源语言模型，基于 Qwen2.5 系列进行蒸馏优化。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和性能，同时保持了较小的模型体积。它在多项基准测试中表现出色，尤其在数学、代码生成和推理任务中具有显著优势。该模型支持商业使用，并允许用户进行修改和衍生作品开发，适合研究机构和企业用于开发高性能的自然语言处理应用。

DeepSeek-R1-Distill-Qwen-7B

Deepseek R1 Distill Qwen 7B

DeepSeek-R1-Distill-Qwen-7B 是一个经过强化学习优化的推理模型，基于 Qwen-7B 进行了蒸馏优化。它在数学、代码和推理任务上表现出色，能够生成高质量的推理链和解决方案。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和效率，适用于需要复杂推理和逻辑分析的场景。

模型训练与部署

DeepSeek-R1-Distill-Llama-8B

Deepseek R1 Distill Llama 8B

DeepSeek-R1-Distill-Llama-8B 是 DeepSeek 团队开发的高性能语言模型，基于 Llama 架构并经过强化学习和蒸馏优化。该模型在推理、代码生成和多语言任务中表现出色，是开源社区中首个通过纯强化学习提升推理能力的模型。它支持商业使用，允许修改和衍生作品，适合学术研究和企业应用。

DeepSeek-R1-Distill-Qwen-14B

Deepseek R1 Distill Qwen 14B

DeepSeek-R1-Distill-Qwen-14B 是 DeepSeek 团队开发的一款基于 Qwen-14B 的蒸馏模型，专注于推理和文本生成任务。该模型通过大规模强化学习和数据蒸馏技术，显著提升了推理能力和生成质量，同时降低了计算资源需求。其主要优点包括高性能、低资源消耗和广泛的适用性，适用于需要高效推理和文本生成的场景。

DeepSeek-R1-Distill-Qwen-32B

Deepseek R1 Distill Qwen 32B

DeepSeek-R1-Distill-Qwen-32B 是由 DeepSeek 团队开发的高性能语言模型，基于 Qwen-2.5 系列进行蒸馏优化。该模型在多项基准测试中表现出色，尤其是在数学、代码和推理任务上。其主要优点包括高效的推理能力、强大的多语言支持以及开源特性，便于研究人员和开发者进行二次开发和应用。该模型适用于需要高性能文本生成的场景，如智能客服、内容创作和代码辅助等，具有广泛的应用前景。

模型训练与部署

DeepSeek-R1-Distill-Llama-70B

Deepseek R1 Distill Llama 70B

DeepSeek-R1-Distill-Llama-70B 是由 DeepSeek 团队开发的一款大型语言模型，基于 Llama-70B 架构并通过强化学习进行优化。该模型在推理、对话和多语言任务中表现出色，支持多种应用场景，包括代码生成、数学推理和自然语言处理。其主要优点是高效的推理能力和对复杂问题的解决能力，同时支持开源和商业使用。该模型适用于需要高性能语言生成和推理能力的企业和研究机构。

PaSa

PaSa 是由字节跳动开发的一种先进学术论文搜索代理，基于大语言模型（LLM）技术，能够自主调用搜索工具、阅读论文并筛选相关参考文献，以获取复杂学术查询的全面准确结果。该技术通过强化学习优化，使用合成数据集 AutoScholarQuery 进行训练，并在真实世界查询数据集 RealScholarQuery 上表现出色，显著优于传统搜索引擎和基于 GPT 的方法。PaSa 的主要优势在于其高召回率和精准率，能够为研究人员提供更高效的学术搜索体验。

Kimi k1.5

Kimi k1.5 是由 MoonshotAI 开发的多模态语言模型，通过强化学习和长上下文扩展技术，显著提升了模型在复杂推理任务中的表现。该模型在多个基准测试中达到了行业领先水平，例如在 AIME 和 MATH-500 等数学推理任务中超越了 GPT-4o 和 Claude Sonnet 3.5。其主要优点包括高效的训练框架、强大的多模态推理能力以及对长上下文的支持。Kimi k1.5 主要面向需要复杂推理和逻辑分析的应用场景，如编程辅助、数学解题和代码生成等。

模型训练与部署

DeepSeek-R1-Zero

Deepseek R1 Zero

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

DeepSeek-R1

DeepSeek-R1 是 DeepSeek 团队推出的第一代推理模型，通过大规模强化学习训练，无需监督微调即可展现出卓越的推理能力。该模型在数学、代码和推理任务上表现优异，与 OpenAI-o1 模型相当。DeepSeek-R1 还提供了多种蒸馏模型，适用于不同规模和性能需求的场景。其开源特性为研究社区提供了强大的工具，支持商业使用和二次开发。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase