Eureka : 人間レベルの報酬設計アルゴリズム。大規模言語モデルを用いて実装されています。

Eureka

AIモデル推論訓練 AI開発助手 #報酬設計 #強化学習 #言語モデル Standard Picks Open Source

Overview :

Eurekaは、大規模言語モデルを用いて実装された人間レベルの報酬設計アルゴリズムです。 GPT-4などの最先端言語モデルのゼロショット生成、コード記述、コンテキスト改良能力を活用し、報酬コードを進化的に最適化します。生成された報酬は、強化学習を通じて複雑なスキルを獲得するために使用できます。Eurekaが生成した報酬関数は、10種類の異なるロボット形態を含む29種類のオープンソース強化学習環境において、人間が設計した報酬関数よりも優れた性能を示しました。また、Eurekaは報酬関数を柔軟に改良し、生成される報酬の質と安全性を向上させることができます。コース学習と組み合わせることで、Eurekaの報酬関数を使用し、シミュレーションされたShadow Handによる回転ペンのスキルを初めて実現し、円の中を素早く巧みにペンを操作することに成功しました。

Target Users :

報酬設計と強化学習が必要なタスクに適用可能

Total Visits： 3.8K

Top Region： US(93.71%)

Website Views ： 66.8K

Features

大規模言語モデルによる報酬設計

進化最適化による複雑な報酬関数の生成

生成された報酬関数による強化学習