Light-R1-14B-DS
L
Light R1 14B DS
簡介 :
Light-R1-14B-DS 是由北京奇虎科技有限公司開發的開源數學模型。該模型基於 DeepSeek-R1-Distill-Qwen-14B 進行強化學習訓練,在 AIME24 和 AIME25 數學競賽基準測試中分別達到了 74.0 和 60.2 的高分,超越了許多 32B 參數量的模型。它在輕量級預算下成功實現了對已經長鏈推理微調模型的強化學習嘗試,為開源社區提供了一個強大的數學模型工具。該模型的開源有助於推動自然語言處理在教育領域的應用,特別是數學問題解決方面,為研究人員和開發者提供了寶貴的研究基礎和實踐工具。
需求人群 :
該模型適合從事自然語言處理研究的學者和開發者,尤其是那些專注於數學問題解決、教育領域應用以及強化學習技術研究的人員。對於希望在輕量級預算下實現高性能模型訓練的團隊,該模型提供了一個優秀的參考案例,能夠幫助他們快速上手並進行相關研究和開發工作。
總訪問量: 25.3M
佔比最多地區: US(17.94%)
本站瀏覽量 : 76.2K
使用場景
研究人員可以利用該模型進行數學問題解決算法的研究和改進。
開發者可以基於該模型開發教育類應用,幫助學生更好地解決數學問題。
企業可以將該模型應用於智能客服系統,提升對數學相關問題的解答能力。
產品特色
基於強化學習的長鏈推理訓練,提升數學問題解決能力
開源模型,方便研究人員和開發者進行二次開發和研究
在 AIME24 和 AIME25 等數學基準測試中表現優異,具有高準確率
支持輕量級預算下的高效訓練,降低計算成本
提供詳細的訓練日誌和技術報告,便於理解和復現
使用教程
1. 訪問 Hugging Face 官網,找到 Light-R1-14B-DS 模型頁面。
2. 下載模型文件及相關資源,包括訓練日誌和技術報告。
3. 使用支持的框架加載模型,例如 PyTorch 或 TensorFlow。
4. 根據具體需求對模型進行微調或直接應用到數學問題解決任務中。
5. 參考技術報告和訓練日誌,瞭解模型的訓練過程和優化方法,以便更好地使用和改進模型。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase