Light R1 : Light-R1 是一個專注於長鏈推理（Long COT）的開源項目，通過課程式 SFT、DPO 和 RL 提供從零開始的訓練方法。

Light R1

模型訓練與部署研究工具 #人工智能 #長鏈推理 #開源 #強化學習 #數學模型普通產品開源

簡介 :

Light-R1 是一個由 Qihoo360 開發的開源項目，旨在通過課程式監督微調（SFT）、直接偏好優化（DPO）和強化學習（RL）訓練長鏈推理模型。該項目通過去汙染數據集和高效的訓練方法，實現了從零開始的長鏈推理能力。其主要優點包括開源的訓練數據、低成本的訓練方式以及在數學推理領域的卓越性能。項目背景基於當前長鏈推理模型的訓練需求，旨在提供一種透明且可復現的訓練方法。項目目前免費開源，適合研究機構和開發者使用。

需求人群 :

目標受眾包括人工智能研究者、機器學習工程師以及對長鏈推理模型感興趣的開發者。該項目適合那些希望在有限資源下訓練高性能長鏈推理模型的研究團隊和企業，同時也為開源社區提供了寶貴的參考。

總訪問量： 492.1M

佔比最多地區： US(19.34%)

本站瀏覽量： 66.8K

使用場景

使用 Light-R1-7B-DS 模型在 AIME24 測試中達到 59.1% 的準確率，顯著優於其他同類模型。

通過課程式 SFT 和 DPO 訓練，Light-R1-32B 在 AIME24 上達到 76.6% 的準確率，超越了 DeepSeek-R1-Distill-Qwen-32B。

開發者可以基於開源的訓練代碼和數據集，快速復現 Light-R1 的訓練過程，並進行定製化改進。

產品特色

提供從零開始的長鏈推理訓練方法，無需依賴預訓練的長鏈推理能力

開源完整的訓練數據集和代碼，便於研究者復現和改進