Light-R1
L
Light R1
簡介 :
Light-R1 是一個由 Qihoo360 開發的開源項目,旨在通過課程式監督微調(SFT)、直接偏好優化(DPO)和強化學習(RL)訓練長鏈推理模型。該項目通過去汙染數據集和高效的訓練方法,實現了從零開始的長鏈推理能力。其主要優點包括開源的訓練數據、低成本的訓練方式以及在數學推理領域的卓越性能。項目背景基於當前長鏈推理模型的訓練需求,旨在提供一種透明且可復現的訓練方法。項目目前免費開源,適合研究機構和開發者使用。
需求人群 :
目標受眾包括人工智能研究者、機器學習工程師以及對長鏈推理模型感興趣的開發者。該項目適合那些希望在有限資源下訓練高性能長鏈推理模型的研究團隊和企業,同時也為開源社區提供了寶貴的參考。
總訪問量: 492.1M
佔比最多地區: US(19.34%)
本站瀏覽量 : 66.8K
使用場景
使用 Light-R1-7B-DS 模型在 AIME24 測試中達到 59.1% 的準確率,顯著優於其他同類模型。
通過課程式 SFT 和 DPO 訓練,Light-R1-32B 在 AIME24 上達到 76.6% 的準確率,超越了 DeepSeek-R1-Distill-Qwen-32B。
開發者可以基於開源的訓練代碼和數據集,快速復現 Light-R1 的訓練過程,並進行定製化改進。
產品特色
提供從零開始的長鏈推理訓練方法,無需依賴預訓練的長鏈推理能力
開源完整的訓練數據集和代碼,便於研究者復現和改進
採用課程式學習,通過 SFT 和 DPO 提升模型性能
支持強化學習(RL)訓練,進一步優化模型表現
在數學推理領域表現出色,特別是在 AIME24 和 AIME25 等基準測試中
使用教程
1. 克隆 Light-R1 項目代碼到本地。
2. 下載並安裝項目依賴的 Python 包。
3. 使用開源的訓練數據集運行 SFT 訓練腳本。
4. 在 SFT 基礎上運行 DPO 訓練腳本,進一步優化模型。
5. 使用訓練好的模型進行推理或繼續進行 RL 訓練。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase