MiniCPM-Llama3-V 2.5
M
Minicpm Llama3 V 2.5
簡介 :
MiniCPM-Llama3-V 2.5 是 OpenBMB 項目中最新發布的端側多模態大模型,具備8B參數量,支持超過30種語言的多模態交互,並在多模態綜合性能上超越了多個商用閉源模型。該模型通過模型量化、CPU、NPU、編譯優化等技術實現了高效的終端設備部署,具有優秀的OCR能力、可信行為以及多語言支持等特點。
需求人群 :
該產品適合需要在端側設備上進行高效多模態交互的開發者和企業,如智能手機、平板電腦等移動設備,以及需要進行圖像識別、語言處理和多語言交互的場景。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 214.2K
使用場景
在智能手機上進行圖像和文本的多模態交互。
使用模型進行場景文字識別和信息提取。
跨語言的多模態對話和內容生成。
產品特色
領先的性能:在OpenCompass榜單上平均得分65.1,超越多個商用閉源多模態大模型。
優秀的OCR能力:OCRBench得分達到725,支持高分辨率圖像輸入和全文OCR信息提取。
可信行為:通過RLAIF-V對齊技術,具有較低的幻覺率和可信的多模態行為。
多語言支持:支持30+種語言的多模態能力,通過少量翻譯數據實現跨語言泛化。
高效部署:通過模型量化和編譯優化技術,實現終端設備上的快速推理和圖像編碼。
簡易微調和本地WebUI Demo部署:支持通過Huggingface Transformers庫和SWIFT框架進行微調。
使用教程
克隆OpenBMB/MiniCPM-V的代碼倉庫到本地。
創建conda環境並安裝所需的依賴。
根據設備類型(如NVIDIA GPU、Mac MPS等)運行本地WebUI Demo。
使用Huggingface Transformers庫或SWIFT框架對模型進行微調以適應特定任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase