Eureka
E
Eureka
簡介 :
Eureka是一種人類級獎勵設計算法,通過編碼大型語言模型實現。它利用最先進的語言模型(如GPT-4)的零樣本生成、編寫代碼和上下文改進能力,對獎勵代碼進行進化優化。生成的獎勵可以用於通過強化學習獲得複雜的技能。Eureka生成的獎勵函數在29個開源強化學習環境中,包括10種不同的機器人形態,優於人類專家設計的獎勵函數。Eureka還能夠靈活地改進獎勵函數,以提高生成獎勵的質量和安全性。通過與課程學習相結合,使用Eureka獎勵函數,我們首次展示了一個模擬的Shadow Hand能夠進行旋轉筆的技巧,熟練地以快速的速度在圓圈中操縱筆。
需求人群 :
適用於需要進行獎勵設計和強化學習的任務
總訪問量: 3.0K
佔比最多地區: US(93.71%)
本站瀏覽量 : 66.8K
產品特色
利用大型語言模型進行獎勵設計
通過進化優化生成複雜的獎勵函數
使用生成的獎勵函數進行強化學習
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase