Light R1 14B DS : 一款開源的14B參數量的數學模型，通過強化學習訓練，性能卓越。

Light R1 14B DS

AI模型研究工具 #強化學習 #數學模型 #開源 #自然語言處理 #教育普通產品開源

簡介 :

Light-R1-14B-DS 是由北京奇虎科技有限公司開發的開源數學模型。該模型基於 DeepSeek-R1-Distill-Qwen-14B 進行強化學習訓練，在 AIME24 和 AIME25 數學競賽基準測試中分別達到了 74.0 和 60.2 的高分，超越了許多 32B 參數量的模型。它在輕量級預算下成功實現了對已經長鏈推理微調模型的強化學習嘗試，為開源社區提供了一個強大的數學模型工具。該模型的開源有助於推動自然語言處理在教育領域的應用，特別是數學問題解決方面，為研究人員和開發者提供了寶貴的研究基礎和實踐工具。

需求人群 :

該模型適合從事自然語言處理研究的學者和開發者，尤其是那些專注於數學問題解決、教育領域應用以及強化學習技術研究的人員。對於希望在輕量級預算下實現高性能模型訓練的團隊，該模型提供了一個優秀的參考案例，能夠幫助他們快速上手並進行相關研究和開發工作。

總訪問量： 25.3M

佔比最多地區： US(17.94%)

本站瀏覽量： 76.2K

使用場景

研究人員可以利用該模型進行數學問題解決算法的研究和改進。

開發者可以基於該模型開發教育類應用，幫助學生更好地解決數學問題。

企業可以將該模型應用於智能客服系統，提升對數學相關問題的解答能力。

產品特色

基於強化學習的長鏈推理訓練，提升數學問題解決能力

開源模型，方便研究人員和開發者進行二次開發和研究