Light R1 14B DS : 一款开源的14B参数量的数学模型，通过强化学习训练，性能卓越。

Light R1 14B DS

AI模型研究工具 #强化学习 #数学模型 #开源 #自然语言处理 #教育普通产品开源

简介 :

Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。该模型基于 DeepSeek-R1-Distill-Qwen-14B 进行强化学习训练，在 AIME24 和 AIME25 数学竞赛基准测试中分别达到了 74.0 和 60.2 的高分，超越了许多 32B 参数量的模型。它在轻量级预算下成功实现了对已经长链推理微调模型的强化学习尝试，为开源社区提供了一个强大的数学模型工具。该模型的开源有助于推动自然语言处理在教育领域的应用，特别是数学问题解决方面，为研究人员和开发者提供了宝贵的研究基础和实践工具。

需求人群 :

该模型适合从事自然语言处理研究的学者和开发者，尤其是那些专注于数学问题解决、教育领域应用以及强化学习技术研究的人员。对于希望在轻量级预算下实现高性能模型训练的团队，该模型提供了一个优秀的参考案例，能够帮助他们快速上手并进行相关研究和开发工作。

总访问量： 25.3M

占比最多地区： US(17.94%)

本站浏览量： 79.5K

使用场景

研究人员可以利用该模型进行数学问题解决算法的研究和改进。

开发者可以基于该模型开发教育类应用，帮助学生更好地解决数学问题。

企业可以将该模型应用于智能客服系统，提升对数学相关问题的解答能力。

产品特色

基于强化学习的长链推理训练，提升数学问题解决能力

开源模型，方便研究人员和开发者进行二次开发和研究