Video Language Planning
V
Video Language Planning
Overview :
Video Language Planning(VLP)是一種算法,通過訓練視覺語言模型和文本到視頻模型,實現了對複雜長期任務的視覺規劃。VLP接受長期任務指令和當前圖像觀察作為輸入,並輸出一個詳細的多模態(視頻和語言)規劃,描述如何完成最終任務。VLP能夠在不同的機器人領域中合成長期視頻規劃,從多物體重新排列到多攝像頭雙臂靈巧操作。生成的視頻規劃可以通過目標條件策略轉化為真實機器人動作。實驗證明,與之前的方法相比,VLP顯著提高了長期任務的成功率。
Target Users :
適用於複雜長期任務的視覺規劃
Total Visits: 279
Top Region: US(100.00%)
Website Views : 74.0K
Use Cases
將物體堆疊在桌子中央
將水果放入頂層抽屜
將積木按顏色分組
Features
訓練視覺語言模型和文本到視頻模型
生成詳細的多模態規劃
合成長期視頻規劃
轉化為真實機器人動作
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase