Self Rewarding Language Models : 語言模型自我獎勵訓練

Self Rewarding Language Models

AI模型 AI語言模型 #語言模型 #自我獎勵 #迭代訓練 #AlpacaEval 普通產品開源

簡介 :

本產品是一種自獎勵語言模型，通過 LLM 作為裁判，使用模型自身提供的獎勵信號進行訓練。通過迭代的 DPO 訓練，模型不僅可以提高遵循指令的能力，還能提供高質量的自我獎勵。經過三次迭代的 Fine-tuning，本產品在 AlpacaEval 2.0 排行榜上超過了許多現有系統，包括 Claude 2、Gemini Pro 和 GPT-4 0613。這項工作雖然只是初步研究，但為模型在兩個方面持續改進的可能性打開了大門。

需求人群 :

適用於自然語言處理任務的訓練和生成

總訪問量： 29.7M

佔比最多地區： US(17.58%)

本站瀏覽量： 57.1K

使用場景

訓練一個能夠根據指令生成高質量文本的語言模型

提供給聊天機器人一個更準確和自然的回覆生成能力

為寫作輔助工具提供更準確和有創意的生成功能

產品特色

使用 LLM-as-a-Judge 提供獎勵信號進行自我獎勵訓練

提高遵循指令的能力