Cola
C
Cola
簡介 :
Cola是一種使用語言模型(LM)來聚合2個或更多視覺-語言模型(VLM)輸出的方法。我們的模型組裝方法被稱為Cola(COordinative LAnguage model or visual reasoning)。Cola在LM微調(稱為Cola-FT)時效果最好。Cola在零樣本或少樣本上下文學習(稱為Cola-Zero)時也很有效。除了性能提升外,Cola還對VLM的錯誤更具魯棒性。我們展示了Cola可以應用於各種VLM(包括大型多模態模型如InstructBLIP)和7個數據集(VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQA),並且它始終提高了性能。
需求人群 :
適用於各種視覺-語言任務,如視覺問答、圖像描述等
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 53.0K
使用場景
使用Cola-Zero進行視覺問答
使用Cola-FT進行圖像描述
使用Cola提高VLM性能
產品特色
使用語言模型聚合多個視覺-語言模型的輸出
支持LM微調和零樣本學習
提高性能並增強對VLM錯誤的魯棒性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase