Cola : 大型語言模型是視覺推理協調器

Cola

AI圖像檢測識別 AI模型 #語言模型 #視覺推理 #LM微調 #零樣本學習普通產品開源

簡介 :

Cola是一種使用語言模型（LM）來聚合2個或更多視覺-語言模型（VLM）輸出的方法。我們的模型組裝方法被稱為Cola（COordinative LAnguage model or visual reasoning）。Cola在LM微調（稱為Cola-FT）時效果最好。Cola在零樣本或少樣本上下文學習（稱為Cola-Zero）時也很有效。除了性能提升外，Cola還對VLM的錯誤更具魯棒性。我們展示了Cola可以應用於各種VLM（包括大型多模態模型如InstructBLIP）和7個數據集（VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQA），並且它始終提高了性能。

需求人群 :

適用於各種視覺-語言任務，如視覺問答、圖像描述等

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 53.0K

使用場景

使用Cola-Zero進行視覺問答

使用Cola-FT進行圖像描述

使用Cola提高VLM性能

產品特色

使用語言模型聚合多個視覺-語言模型的輸出

支持LM微調和零樣本學習