Minigemini : 画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

Minigemini

AI画像生成 AIモデル #マルチモーダル #視覚言語モデル #大規模言語モデル #画像理解 #画像生成通常製品オープンソース

紹介 :

Mini-Geminiは、2Bから34Bパラメーターの様々なサイズを持つ、密集型およびMoE構造の大規模言語モデルです。画像の理解、推論、生成能力を備えたマルチモーダル視覚言語モデルです。LLaVAを基盤とし、2つの視覚エンコーダを用いて低解像度と高解像度の視覚埋め込みを生成します。高解像度領域と低解像度視覚クエリ間でパッチレベルの情報マイニングを行い、テキストと画像を融合することで、理解と生成タスクを実行します。COCO、GQA、OCR-VQA、VisualGenomeなど、複数の視覚理解ベンチマークに対応しています。

ターゲットユーザー :

Mini-Geminiは、テキストと画像の両方を扱う必要がある様々な用途に適用できます。例えば、Visual Question Answering、画像キャプション生成、画像編集などです。

総訪問数： 1.2K

最も高い割合の地域： US(100.00%)

ウェブサイト閲覧数： 154.0K

使用シナリオ

与えられた画像の内容に関する質問に答える

画像のテキスト説明を生成する

指示に従って画像を編集し、新しい画像を生成する

製品特徴

低解像度/高解像度デュアル視覚エンコーダ

パッチレベル情報マイニング