

Light R1
紹介 :
Light-R1は、Qihoo360が開発したオープンソースプロジェクトであり、コース形式の教師あり微調整(SFT)、直接選好最適化(DPO)、強化学習(RL)によって長鎖推論モデルを訓練することを目指しています。このプロジェクトは、データセットの浄化と効率的な訓練方法によって、ゼロから長鎖推論能力を実現しました。主な利点としては、オープンソースの訓練データ、低コストの訓練方法、そして数学的推論分野における優れた性能が挙げられます。プロジェクトの背景は、現在の長鎖推論モデルの訓練ニーズに基づいており、透明性があり再現可能な訓練方法を提供することを目指しています。プロジェクトは現在無料でオープンソースとなっており、研究機関や開発者による利用に適しています。
ターゲットユーザー :
「ターゲットユーザーは、人工知能研究者、機械学習エンジニア、そして長鎖推論モデルに興味のある開発者です。このプロジェクトは、限られたリソースで高性能な長鎖推論モデルを訓練したい研究チームや企業に適しており、オープンソースコミュニティにも貴重な参考資料を提供します。」
使用シナリオ
Light-R1-7B-DSモデルを使用してAIME24テストで59.1%の精度を達成し、他の同種のモデルを大幅に上回りました。
コース形式のSFTとDPOによる訓練により、Light-R1-32BはAIME24で76.6%の精度を達成し、DeepSeek-R1-Distill-Qwen-32Bを上回りました。
開発者は、オープンソースの訓練コードとデータセットに基づいて、Light-R1の訓練プロセスを迅速に再現し、カスタマイズされた改良を行うことができます。
製品特徴
ゼロから長鎖推論の訓練方法を提供し、事前に訓練された長鎖推論能力に依存しません。
完全な訓練データセットとコードをオープンソース化し、研究者による再現と改良を容易にします。
コース形式の学習を採用し、SFTとDPOによってモデルの性能を向上させます。
強化学習(RL)訓練をサポートし、モデルの性能をさらに最適化します。
数学的推論分野で優れた性能を発揮し、特にAIME24やAIME25などのベンチマークテストで高いスコアを記録します。
使用チュートリアル
1. Light-R1プロジェクトのコードをローカルにクローンします。
2. プロジェクトが依存するPythonパッケージをダウンロードしてインストールします。
3. オープンソースの訓練データセットを使用してSFT訓練スクリプトを実行します。
4. SFTをベースにDPO訓練スクリプトを実行し、モデルをさらに最適化します。
5. 訓練済みのモデルを使用して推論を実行するか、RL訓練を続けます。