Starling-7B
S
Starling 7B
简介 :
Starling-7B 是一个由强化学习从 AI 反馈(RLAIF)训练的开放大型语言模型(LLM)。它通过我们的新 GPT-4 标记排序数据集 Nectar 和新的奖励训练和策略调优流程充分发挥了作用。Starling-7B 在使用 GPT-4 作为评委的 MT Bench 中得分为 8.09,在 MT-Bench 上超过了目前所有模型,除了 OpenAI 的 GPT-4 和 GPT-4 Turbo。我们在 HuggingFace 上发布了排名数据集 Nectar、奖励模型 Starling-RM-7B-alpha 和语言模型 Starling-LM-7B-alpha,以及 LMSYS Chatbot Arena 中的在线演示。请期待我们即将发布的代码和论文,其中将提供有关整个过程的更多详细信息。
需求人群 :
用于聊天和问答场景
总访问量: 0
本站浏览量 : 60.2K
产品特色
基于 AI 反馈的强化学习
优化 LLM 的可用性和安全性
提供高质量的排名数据集和奖励模型
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase