Video Language Planning
V
Video Language Planning
简介 :
Video Language Planning(VLP)是一种算法,通过训练视觉语言模型和文本到视频模型,实现了对复杂长期任务的视觉规划。VLP接受长期任务指令和当前图像观察作为输入,并输出一个详细的多模态(视频和语言)规划,描述如何完成最终任务。VLP能够在不同的机器人领域中合成长期视频规划,从多物体重新排列到多摄像头双臂灵巧操作。生成的视频规划可以通过目标条件策略转化为真实机器人动作。实验证明,与之前的方法相比,VLP显著提高了长期任务的成功率。
需求人群 :
适用于复杂长期任务的视觉规划
总访问量: 279
占比最多地区: US(100.00%)
本站浏览量 : 73.7K
使用场景
将物体堆叠在桌子中央
将水果放入顶层抽屉
将积木按颜色分组
产品特色
训练视觉语言模型和文本到视频模型
生成详细的多模态规划
合成长期视频规划
转化为真实机器人动作
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase