Cogvlm : 强大的开源视觉语言模型

Cogvlm

简介 :

CogVLM是一个强大的开源视觉语言模型。CogVLM-17B拥有100亿个视觉参数和70亿个语言参数。CogVLM-17B在10个经典的跨模态基准测试中取得了最先进的性能，包括NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC，并在VQAv2、OKVQA、TextVQA、COCO字幕等方面排名第二，超过或与PaLI-X 55B相匹配。CogVLM还可以与您就图像进行对话。

需求人群 :

用于图像描述、问题回答和视觉定位

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 100.2K

使用场景

使用CogVLM准确描述图像细节

使用CogVLM回答各种类型的问题

使用CogVLM进行视觉定位

产品特色

准确描述图像细节

回答各种类型的问题

视觉定位

流量来源

直接访问	51.61%	外链引荐	33.46%	邮件	0.04%
自然搜索	12.58%	社交媒体	2.19%	展示广告	0.11%

同类开源产品

Deepseek R1 0528

DeepSeek R1-0528 是知名开源大模型平台 DeepSeek 发布的最新版本，具有高性能的自然语言处理和编程能力。它的发布引起了广泛关注，因其在编程任务中表现出色，能够准确回答复杂问题。该模型支持多种应用场景，是开发者和 AI 研究者的重要工具。预计后续将发布更详细的模型信息和使用指南，增强其功能和应用广度。

月访问量	4.92m
平均访问时长	393.01
每次访问页数	6.11
跳出率	36.20%

月访问量	4.92m
美国	19.34%
中国	13.25%
印度	9.32%
俄罗斯	4.28%
德国	3.63%