

Minigemini
簡介 :
Mini-Gemini是一個多模態視覺語言模型,支持從2B到34B的系列密集和MoE大型語言模型,同時具備圖像理解、推理和生成能力。它基於LLaVA構建,利用雙視覺編碼器提供低分辨率視覺嵌入和高分辨率候選區域,採用補丁信息挖掘在高分辨率區域和低分辨率視覺查詢之間進行補丁級挖掘,將文本與圖像融合用於理解和生成任務。支持包括COCO、GQA、OCR-VQA、VisualGenome等多個視覺理解基準測試。
需求人群 :
Mini-Gemini可應用於需要同時處理文本和圖像的各種場景,如視覺問答、圖像描述生成、圖像編輯等。
使用場景
根據給定的圖像內容回答相關問題
生成圖像的文字描述
根據指令對圖像進行編輯生成新圖像
產品特色
低分辨率/高分辨率雙視覺編碼器
補丁級信息挖掘
基於大型語言模型的圖文融合
支持視覺理解和生成任務
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

剪映dreamina
剪映Dreamina是抖音旗下的AIGC工具,用戶可以根據文本內容生成由AI生成的創意圖,支持修整圖片大小比例和模板類型。未來會用於抖音的圖文或短視頻的內容創作,豐富抖音在AI創造方面的內容庫。
AI圖像生成
9.1M