CogVLM
C
Cogvlm
簡介 :
CogVLM是一個強大的開源視覺語言模型。CogVLM-17B擁有100億個視覺參數和70億個語言參數。CogVLM-17B在10個經典的跨模態基準測試中取得了最先進的性能,包括NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC,並在VQAv2、OKVQA、TextVQA、COCO字幕等方面排名第二,超過或與PaLI-X 55B相匹配。CogVLM還可以與您就圖像進行對話。
需求人群 :
用於圖像描述、問題回答和視覺定位
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 97.4K
使用場景
使用CogVLM準確描述圖像細節
使用CogVLM回答各種類型的問題
使用CogVLM進行視覺定位
產品特色
準確描述圖像細節
回答各種類型的問題
視覺定位
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase