Cogagent : 开源的端到端视觉语言模型（VLM）基础的GUI代理

Cogagent

CogAgent

Cogagent

AI模型开发与工具 #视觉语言模型 #GUI代理 #自然语言处理 #自动化 #人工智能普通产品开源

简介 :

CogAgent是一个基于视觉语言模型（VLM）的GUI代理，它通过屏幕截图和自然语言实现双语（中文和英文）交云。CogAgent在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面取得了显著进步。该模型已经在ZhipuAI的GLM-PC产品中得到应用，旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理的研究和应用。

需求人群 :

目标受众为研究人员和开发者，特别是那些在GUI自动化、视觉语言模型和自然语言处理领域寻求高效解决方案的专业人士。CogAgent提供的先进技术可以帮助他们开发和研究基于视觉语言模型的GUI代理，推进相关技术的发展和应用。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 62.1K

使用场景

研究人员使用CogAgent模型进行GUI感知和推理预测的实验。

开发者利用CogAgent实现桌面应用的自动化操作。

企业使用CogAgent模型优化客户服务流程，通过自动化GUI操作提高效率。

产品特色

支持双语（中文和英文）交云，通过屏幕截图和自然语言进行交互。

在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面具有显著优势。

CogAgent-9B-20241220模型基于GLM-4V-9B，一个双语开源VLM基础模型。

支持多阶段训练和策略改进，实现GUI感知和推理预测的准确性。

模型输出遵循严格格式，以字符串格式返回，不支持JSON输出。

不支持连续对话，但支持连续执行历史。

需要图像作为输入，纯文本对话无法实现GUI代理任务。

使用教程

1. 确保已安装Python 3.10.16或以上版本，并安装requirements.txt中的依赖。

2. 根据需要的输出格式和平台，使用适当的命令行参数运行模型。

3. 提供模型所需的输入图像，并接收包含操作指令的输出。

4. 如果模型返回包含边界框的结果，将输出指示操作执行区域的图像。

5. 使用输出图像路径参数指定输出图像的保存位置。

6. 根据需要调整模型参数，如最大长度、返回结果数等。

7. 对于在线Web演示，可以运行web_demo.py并指定相关参数以实现交互式推理。

8. 参考项目文档和模型技术博客，深入了解模型的使用和优化。

精选AI产品推荐

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase