

Minicpm Llama3 V 2.5
簡介 :
MiniCPM-Llama3-V 2.5 是 OpenBMB 項目中最新發布的端側多模態大模型,具備8B參數量,支持超過30種語言的多模態交互,並在多模態綜合性能上超越了多個商用閉源模型。該模型通過模型量化、CPU、NPU、編譯優化等技術實現了高效的終端設備部署,具有優秀的OCR能力、可信行為以及多語言支持等特點。
需求人群 :
該產品適合需要在端側設備上進行高效多模態交互的開發者和企業,如智能手機、平板電腦等移動設備,以及需要進行圖像識別、語言處理和多語言交互的場景。
使用場景
在智能手機上進行圖像和文本的多模態交互。
使用模型進行場景文字識別和信息提取。
跨語言的多模態對話和內容生成。
產品特色
領先的性能:在OpenCompass榜單上平均得分65.1,超越多個商用閉源多模態大模型。
優秀的OCR能力:OCRBench得分達到725,支持高分辨率圖像輸入和全文OCR信息提取。
可信行為:通過RLAIF-V對齊技術,具有較低的幻覺率和可信的多模態行為。
多語言支持:支持30+種語言的多模態能力,通過少量翻譯數據實現跨語言泛化。
高效部署:通過模型量化和編譯優化技術,實現終端設備上的快速推理和圖像編碼。
簡易微調和本地WebUI Demo部署:支持通過Huggingface Transformers庫和SWIFT框架進行微調。
使用教程
克隆OpenBMB/MiniCPM-V的代碼倉庫到本地。
創建conda環境並安裝所需的依賴。
根據設備類型(如NVIDIA GPU、Mac MPS等)運行本地WebUI Demo。
使用Huggingface Transformers庫或SWIFT框架對模型進行微調以適應特定任務。
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M