Rstar Math : 展示小型语言模型通过自我演化深度思考掌握数学推理能力的研究成果。

Rstar Math

模型训练与部署研究工具 #人工智能 #语言模型 #数学推理 #深度学习 #教育科技普通产品开源

简介 :

rStar-Math是一项研究，旨在证明小型语言模型（SLMs）能够在不依赖于更高级模型的情况下，与OpenAI的o1模型相媲美甚至超越其数学推理能力。该研究通过蒙特卡洛树搜索（MCTS）实现“深度思考”，其中数学策略SLM在基于SLM的流程奖励模型的指导下进行测试时搜索。rStar-Math引入了三种创新方法来应对训练两个SLM的挑战，通过4轮自我演化和数百万个合成解决方案，将SLMs的数学推理能力提升到最先进水平。该模型在MATH基准测试中显著提高了性能，并在AIME竞赛中表现优异。

需求人群 :

目标受众为研究人员、开发者以及对提升小型语言模型数学推理能力感兴趣的学术界和工业界人士。该模型适用于需要高效数学推理和问题解决能力的场景，如教育领域的智能辅导系统、数学竞赛训练工具等。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 49.7K

使用场景

在MATH基准测试中，将Qwen2.5-Math-7B的性能从58.8%提升至90.0%，Phi3-mini-3.8B从41.4%提升至86.4%。

在AIME竞赛中，平均解决了53.3%（8/15）的问题，排名前20%的优秀高中生数学选手之列。

通过自我演化，不断优化策略模型和流程奖励模型，提高解决复杂数学问题的能力。

产品特色

采用蒙特卡洛树搜索（MCTS）进行深度思考和测试时搜索。

提出新颖的代码增强链式推理（CoT）数据合成方法，生成验证推理轨迹。