Video Language Planning
V
Video Language Planning
簡介 :
Video Language Planning(VLP)是一種算法,通過訓練視覺語言模型和文本到視頻模型,實現了對複雜長期任務的視覺規劃。VLP接受長期任務指令和當前圖像觀察作為輸入,並輸出一個詳細的多模態(視頻和語言)規劃,描述如何完成最終任務。VLP能夠在不同的機器人領域中合成長期視頻規劃,從多物體重新排列到多攝像頭雙臂靈巧操作。生成的視頻規劃可以通過目標條件策略轉化為真實機器人動作。實驗證明,與之前的方法相比,VLP顯著提高了長期任務的成功率。
需求人群 :
適用於複雜長期任務的視覺規劃
總訪問量: 279
佔比最多地區: US(100.00%)
本站瀏覽量 : 73.7K
使用場景
將物體堆疊在桌子中央
將水果放入頂層抽屜
將積木按顏色分組
產品特色
訓練視覺語言模型和文本到視頻模型
生成詳細的多模態規劃
合成長期視頻規劃
轉化為真實機器人動作
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase