Cogvlm : 強大的開源視覺語言模型

Cogvlm

簡介 :

CogVLM是一個強大的開源視覺語言模型。CogVLM-17B擁有100億個視覺參數和70億個語言參數。CogVLM-17B在10個經典的跨模態基準測試中取得了最先進的性能，包括NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC，並在VQAv2、OKVQA、TextVQA、COCO字幕等方面排名第二，超過或與PaLI-X 55B相匹配。CogVLM還可以與您就圖像進行對話。

需求人群 :

用於圖像描述、問題回答和視覺定位

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 97.4K

使用場景

使用CogVLM準確描述圖像細節

使用CogVLM回答各種類型的問題

使用CogVLM進行視覺定位

產品特色

準確描述圖像細節

回答各種類型的問題

視覺定位

流量來源

直接訪問	51.61%	外鏈引薦	33.46%	郵件	0.04%
自然搜索	12.58%	社交媒體	2.19%	展示廣告	0.11%

最新流量情況

月訪問量	4.92m
平均訪問時長	393.01
每次訪問頁數	6.11
跳出率	36.20%

總流量趨勢圖

地理流量分佈情況

月訪問量	4.92m
United States	19.34%
China	13.25%
India	9.32%
Russia	4.28%
Germany	3.63%

地理流量分佈全球圖

同類開源產品

Fastvlm

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。