Minicpm Llama3 V 2.5 : 端侧可用的GPT-4V级多模态大模型

Minicpm Llama3 V 2.5

MiniCPM-Llama3-V 2.5

Minicpm Llama3 V 2.5

AI模型 AI模型推理训练 #多模态 #端侧部署 #多语言支持 #OCR #高性能普通产品开源

简介 :

MiniCPM-Llama3-V 2.5 是 OpenBMB 项目中最新发布的端侧多模态大模型，具备8B参数量，支持超过30种语言的多模态交互，并在多模态综合性能上超越了多个商用闭源模型。该模型通过模型量化、CPU、NPU、编译优化等技术实现了高效的终端设备部署，具有优秀的OCR能力、可信行为以及多语言支持等特点。

需求人群 :

该产品适合需要在端侧设备上进行高效多模态交互的开发者和企业，如智能手机、平板电脑等移动设备，以及需要进行图像识别、语言处理和多语言交互的场景。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 215.6K

使用场景

在智能手机上进行图像和文本的多模态交互。

使用模型进行场景文字识别和信息提取。

跨语言的多模态对话和内容生成。

产品特色

领先的性能：在OpenCompass榜单上平均得分65.1，超越多个商用闭源多模态大模型。

优秀的OCR能力：OCRBench得分达到725，支持高分辨率图像输入和全文OCR信息提取。

可信行为：通过RLAIF-V对齐技术，具有较低的幻觉率和可信的多模态行为。

多语言支持：支持30+种语言的多模态能力，通过少量翻译数据实现跨语言泛化。

高效部署：通过模型量化和编译优化技术，实现终端设备上的快速推理和图像编码。

简易微调和本地WebUI Demo部署：支持通过Huggingface Transformers库和SWIFT框架进行微调。

使用教程

克隆OpenBMB/MiniCPM-V的代码仓库到本地。

创建conda环境并安装所需的依赖。

根据设备类型（如NVIDIA GPU、Mac MPS等）运行本地WebUI Demo。

使用Huggingface Transformers库或SWIFT框架对模型进行微调以适应特定任务。

精选AI产品推荐

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase