Search R1 : 一個高效的強化學習框架，用於訓練推理和搜索引擎調用的語言模型。

Search R1

簡介 :

Search-R1 是一個強化學習框架，旨在訓練能夠進行推理和調用搜索引擎的語言模型（LLMs）。它基於 veRL 構建，支持多種強化學習方法和不同的 LLM 架構，使得在工具增強的推理研究和開發中具備高效性和可擴展性。

需求人群 :

適合研究人員和開發者，他們需要高效的工具增強推理模型，能夠靈活調用搜索引擎以獲取信息和提高模型性能。

總訪問量： 492.1M

佔比最多地區： US(19.34%)

本站瀏覽量： 62.4K

使用場景

使用 Search-R1 訓練一個模型來回答覆雜的問題並調用搜索引擎獲取最新信息。

利用該框架開發一個智能問答系統，能夠進行多輪對話並即時檢索數據。

在教育領域應用，通過與搜索引擎的結合，提升學習助手的知識覆蓋率。

產品特色

支持多種強化學習方法（如 PPO、GRPO、reinforce），滿足不同訓練需求。

兼容多種語言模型（如 Llama3、Qwen2.5），方便用戶選擇合適的基礎模型。

可以使用本地稀疏 / 密集檢索器及在線搜索引擎，靈活應對不同場景。

提供多節點訓練，支持 30B 以上的 LLMs，提升訓練效率。

開放源碼，促進工具增強的 LLM 推理的研究與開發。

支持自定義數據集和搜索引擎，滿足個性化需求。

記錄完整的實驗日誌，便於復現與分析。

提供便捷的安裝和快速啟動指南，降低使用門檻。

使用教程

安裝環境並準備依賴項。

下載索引和語料庫。

處理訓練數據集。

啟動本地檢索服務器。

運行強化學習訓練腳本。

精選AI產品推薦

智啟未來，您的人工智能解決方案智庫

直接訪問	51.61%	外鏈引薦	33.46%	郵件	0.04%
自然搜索	12.58%	社交媒體	2.19%	展示廣告	0.11%