Cola : 大型语言模型是视觉推理协调器

Cola

AI图像检测识别 AI模型 #语言模型 #视觉推理 #LM微调 #零样本学习普通产品开源

简介 :

Cola是一种使用语言模型（LM）来聚合2个或更多视觉-语言模型（VLM）输出的方法。我们的模型组装方法被称为Cola（COordinative LAnguage model or visual reasoning）。Cola在LM微调（称为Cola-FT）时效果最好。Cola在零样本或少样本上下文学习（称为Cola-Zero）时也很有效。除了性能提升外，Cola还对VLM的错误更具鲁棒性。我们展示了Cola可以应用于各种VLM（包括大型多模态模型如InstructBLIP）和7个数据集（VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQA），并且它始终提高了性能。

需求人群 :

适用于各种视觉-语言任务，如视觉问答、图像描述等

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 54.9K

使用场景

使用Cola-Zero进行视觉问答

使用Cola-FT进行图像描述

使用Cola提高VLM性能

产品特色

使用语言模型聚合多个视觉-语言模型的输出

支持LM微调和零样本学习