Eureka : 人類級獎勵設計算法，通過編碼大型語言模型實現

Eureka

簡介 :

Eureka是一種人類級獎勵設計算法，通過編碼大型語言模型實現。它利用最先進的語言模型（如GPT-4）的零樣本生成、編寫代碼和上下文改進能力，對獎勵代碼進行進化優化。生成的獎勵可以用於通過強化學習獲得複雜的技能。Eureka生成的獎勵函數在29個開源強化學習環境中，包括10種不同的機器人形態，優於人類專家設計的獎勵函數。Eureka還能夠靈活地改進獎勵函數，以提高生成獎勵的質量和安全性。通過與課程學習相結合，使用Eureka獎勵函數，我們首次展示了一個模擬的Shadow Hand能夠進行旋轉筆的技巧，熟練地以快速的速度在圓圈中操縱筆。

需求人群 :

適用於需要進行獎勵設計和強化學習的任務

總訪問量： 3.0K

佔比最多地區： US(93.71%)

本站瀏覽量： 66.8K

產品特色

利用大型語言模型進行獎勵設計

通過進化優化生成複雜的獎勵函數

使用生成的獎勵函數進行強化學習