Starling-7B
S
Starling 7B
簡介 :
Starling-7B 是一個由強化學習從 AI 反饋(RLAIF)訓練的開放大型語言模型(LLM)。它通過我們的新 GPT-4 標記排序數據集 Nectar 和新的獎勵訓練和策略調優流程充分發揮了作用。Starling-7B 在使用 GPT-4 作為評委的 MT Bench 中得分為 8.09,在 MT-Bench 上超過了目前所有模型,除了 OpenAI 的 GPT-4 和 GPT-4 Turbo。我們在 HuggingFace 上發佈了排名數據集 Nectar、獎勵模型 Starling-RM-7B-alpha 和語言模型 Starling-LM-7B-alpha,以及 LMSYS Chatbot Arena 中的在線演示。請期待我們即將發佈的代碼和論文,其中將提供有關整個過程的更多詳細信息。
需求人群 :
用於聊天和問答場景
總訪問量: 0
本站瀏覽量 : 59.6K
產品特色
基於 AI 反饋的強化學習
優化 LLM 的可用性和安全性
提供高質量的排名數據集和獎勵模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase