Self Rewarding Language Models : 语言模型自我奖励训练

Self Rewarding Language Models

AI模型 AI语言模型 #语言模型 #自我奖励 #迭代训练 #AlpacaEval 普通产品开源

简介 :

本产品是一种自奖励语言模型，通过 LLM 作为裁判，使用模型自身提供的奖励信号进行训练。通过迭代的 DPO 训练，模型不仅可以提高遵循指令的能力，还能提供高质量的自我奖励。经过三次迭代的 Fine-tuning，本产品在 AlpacaEval 2.0 排行榜上超过了许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项工作虽然只是初步研究，但为模型在两个方面持续改进的可能性打开了大门。

需求人群 :

适用于自然语言处理任务的训练和生成

总访问量： 29.7M

占比最多地区： US(17.58%)

本站浏览量： 57.4K

使用场景

训练一个能够根据指令生成高质量文本的语言模型

提供给聊天机器人一个更准确和自然的回复生成能力

为写作辅助工具提供更准确和有创意的生成功能

产品特色

使用 LLM-as-a-Judge 提供奖励信号进行自我奖励训练

提高遵循指令的能力