Eureka : 人間レベルの報酬設計アルゴリズム。大規模言語モデルを用いて実装されています。

Eureka

AIモデル推論訓練 AI開発助手 #報酬設計 #強化学習 #言語モデル通常製品オープンソース

紹介 :

Eurekaは、大規模言語モデルを用いて実装された人間レベルの報酬設計アルゴリズムです。 GPT-4などの最先端言語モデルのゼロショット生成、コード記述、コンテキスト改良能力を活用し、報酬コードを進化的に最適化します。生成された報酬は、強化学習を通じて複雑なスキルを獲得するために使用できます。Eurekaが生成した報酬関数は、10種類の異なるロボット形態を含む29種類のオープンソース強化学習環境において、人間が設計した報酬関数よりも優れた性能を示しました。また、Eurekaは報酬関数を柔軟に改良し、生成される報酬の質と安全性を向上させることができます。コース学習と組み合わせることで、Eurekaの報酬関数を使用し、シミュレーションされたShadow Handによる回転ペンのスキルを初めて実現し、円の中を素早く巧みにペンを操作することに成功しました。

ターゲットユーザー :

報酬設計と強化学習が必要なタスクに適用可能

総訪問数： 3.8K

最も高い割合の地域： US(93.71%)

ウェブサイト閲覧数： 66.0K

製品特徴

大規模言語モデルによる報酬設計

進化最適化による複雑な報酬関数の生成

生成された報酬関数による強化学習