

Minigemini
紹介 :
Mini-Geminiは、2Bから34Bパラメーターの様々なサイズを持つ、密集型およびMoE構造の大規模言語モデルです。画像の理解、推論、生成能力を備えたマルチモーダル視覚言語モデルです。LLaVAを基盤とし、2つの視覚エンコーダを用いて低解像度と高解像度の視覚埋め込みを生成します。高解像度領域と低解像度視覚クエリ間でパッチレベルの情報マイニングを行い、テキストと画像を融合することで、理解と生成タスクを実行します。COCO、GQA、OCR-VQA、VisualGenomeなど、複数の視覚理解ベンチマークに対応しています。
ターゲットユーザー :
Mini-Geminiは、テキストと画像の両方を扱う必要がある様々な用途に適用できます。例えば、Visual Question Answering、画像キャプション生成、画像編集などです。
使用シナリオ
与えられた画像の内容に関する質問に答える
画像のテキスト説明を生成する
指示に従って画像を編集し、新しい画像を生成する
製品特徴
低解像度/高解像度デュアル視覚エンコーダ
パッチレベル情報マイニング
大規模言語モデルベースのテキストと画像の融合
視覚理解と生成タスクへの対応
おすすめAI製品

Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
中国語精選

剪映dreamina
剪映DreaminaはTikTok(抖音)が提供するAIGCツールです。テキストを入力すると、AIが自動的にクリエイティブな画像を生成します。画像サイズやアスペクト比、テンプレートの種類も調整可能です。将来的には、TikTokの画像投稿やショート動画のコンテンツ制作にも活用され、TikTokのAIによるコンテンツ制作の充実を図ります。
AI画像生成
9.0M