

Cola
簡介 :
Cola是一種使用語言模型(LM)來聚合2個或更多視覺-語言模型(VLM)輸出的方法。我們的模型組裝方法被稱為Cola(COordinative LAnguage model or visual reasoning)。Cola在LM微調(稱為Cola-FT)時效果最好。Cola在零樣本或少樣本上下文學習(稱為Cola-Zero)時也很有效。除了性能提升外,Cola還對VLM的錯誤更具魯棒性。我們展示了Cola可以應用於各種VLM(包括大型多模態模型如InstructBLIP)和7個數據集(VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQA),並且它始終提高了性能。
需求人群 :
適用於各種視覺-語言任務,如視覺問答、圖像描述等
使用場景
使用Cola-Zero進行視覺問答
使用Cola-FT進行圖像描述
使用Cola提高VLM性能
產品特色
使用語言模型聚合多個視覺-語言模型的輸出
支持LM微調和零樣本學習
提高性能並增強對VLM錯誤的魯棒性
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M