Minigemini : 支持同時理解和生成圖像的多模態大型語言模型

Minigemini

AI圖像生成 AI模型 #多模態 #視覺語言模型 #大型語言模型 #圖像理解 #圖像生成普通產品開源

簡介 :

Mini-Gemini是一個多模態視覺語言模型,支持從2B到34B的系列密集和MoE大型語言模型,同時具備圖像理解、推理和生成能力。它基於LLaVA構建,利用雙視覺編碼器提供低分辨率視覺嵌入和高分辨率候選區域,採用補丁信息挖掘在高分辨率區域和低分辨率視覺查詢之間進行補丁級挖掘,將文本與圖像融合用於理解和生成任務。支持包括COCO、GQA、OCR-VQA、VisualGenome等多個視覺理解基準測試。

需求人群 :

Mini-Gemini可應用於需要同時處理文本和圖像的各種場景,如視覺問答、圖像描述生成、圖像編輯等。

總訪問量： 1.0K

佔比最多地區： US(100.00%)

本站瀏覽量： 154.8K

使用場景

根據給定的圖像內容回答相關問題

生成圖像的文字描述

根據指令對圖像進行編輯生成新圖像

產品特色

低分辨率/高分辨率雙視覺編碼器

補丁級信息挖掘