使用場景
使用 Search-R1 訓練一個模型來回答覆雜的問題並調用搜索引擎獲取最新信息。
利用該框架開發一個智能問答系統,能夠進行多輪對話並即時檢索數據。
在教育領域應用,通過與搜索引擎的結合,提升學習助手的知識覆蓋率。
產品特色
支持多種強化學習方法(如 PPO、GRPO、reinforce),滿足不同訓練需求。
兼容多種語言模型(如 Llama3、Qwen2.5),方便用戶選擇合適的基礎模型。
可以使用本地稀疏 / 密集檢索器及在線搜索引擎,靈活應對不同場景。
提供多節點訓練,支持 30B 以上的 LLMs,提升訓練效率。
開放源碼,促進工具增強的 LLM 推理的研究與開發。
支持自定義數據集和搜索引擎,滿足個性化需求。
記錄完整的實驗日誌,便於復現與分析。
提供便捷的安裝和快速啟動指南,降低使用門檻。
使用教程
安裝環境並準備依賴項。
下載索引和語料庫。
處理訓練數據集。
啟動本地檢索服務器。
運行強化學習訓練腳本。