Cola
C
Cola
简介 :
Cola是一种使用语言模型(LM)来聚合2个或更多视觉-语言模型(VLM)输出的方法。我们的模型组装方法被称为Cola(COordinative LAnguage model or visual reasoning)。Cola在LM微调(称为Cola-FT)时效果最好。Cola在零样本或少样本上下文学习(称为Cola-Zero)时也很有效。除了性能提升外,Cola还对VLM的错误更具鲁棒性。我们展示了Cola可以应用于各种VLM(包括大型多模态模型如InstructBLIP)和7个数据集(VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQA),并且它始终提高了性能。
需求人群 :
适用于各种视觉-语言任务,如视觉问答、图像描述等
总访问量: 474.6M
占比最多地区: US(19.34%)
本站浏览量 : 54.9K
使用场景
使用Cola-Zero进行视觉问答
使用Cola-FT进行图像描述
使用Cola提高VLM性能
产品特色
使用语言模型聚合多个视觉-语言模型的输出
支持LM微调和零样本学习
提高性能并增强对VLM错误的鲁棒性
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase