Rstar Math : 展示小型語言模型通過自我演化深度思考掌握數學推理能力的研究成果。

Rstar Math

模型訓練與部署研究工具 #人工智能 #語言模型 #數學推理 #深度學習 #教育科技普通產品開源

簡介 :

rStar-Math是一項研究，旨在證明小型語言模型（SLMs）能夠在不依賴於更高級模型的情況下，與OpenAI的o1模型相媲美甚至超越其數學推理能力。該研究通過蒙特卡洛樹搜索（MCTS）實現“深度思考”，其中數學策略SLM在基於SLM的流程獎勵模型的指導下進行測試時搜索。rStar-Math引入了三種創新方法來應對訓練兩個SLM的挑戰，通過4輪自我演化和數百萬個合成解決方案，將SLMs的數學推理能力提升到最先進水平。該模型在MATH基準測試中顯著提高了性能，並在AIME競賽中表現優異。

需求人群 :

目標受眾為研究人員、開發者以及對提升小型語言模型數學推理能力感興趣的學術界和工業界人士。該模型適用於需要高效數學推理和問題解決能力的場景，如教育領域的智能輔導系統、數學競賽訓練工具等。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 49.1K

使用場景

在MATH基準測試中，將Qwen2.5-Math-7B的性能從58.8%提升至90.0%，Phi3-mini-3.8B從41.4%提升至86.4%。

在AIME競賽中，平均解決了53.3%（8/15）的問題，排名前20%的優秀高中生數學選手之列。

通過自我演化，不斷優化策略模型和流程獎勵模型，提高解決複雜數學問題的能力。

產品特色

採用蒙特卡洛樹搜索（MCTS）進行深度思考和測試時搜索。

提出新穎的代碼增強鏈式推理（CoT）數據合成方法，生成驗證推理軌跡。