

Deep Floyd
紹介 :
Deep Floydは、高い写実性と自然言語理解能力を備えたオープンソースのテキストツーイメージモデルです。凍結されたテキストエンコーダと3つのカスケード接続されたピクセル拡散モジュールで構成されています。基礎モデルはテキストプロンプトに基づいて64x64ピクセルの画像を生成し、2つの超解像度モデルはそれぞれ、256x256ピクセルと1024x1024ピクセルへと解像度を段階的に向上させた画像を生成します。モデルのすべての段階で、T5 Transformerベースの凍結されたテキストエンコーダを使用してテキスト埋め込みを抽出し、それをクロスアテンションとアテンションプーリングが強化されたUNetアーキテクチャに入力します。この効率的なモデルは、最先端モデルを上回る性能を示し、COCOデータセットにおいてゼロショットFIDスコア6.66を達成しました。本研究は、カスケード拡散モデルの第1段階におけるより大規模なUNetアーキテクチャの可能性を強調し、テキストツーイメージ合成の有望な未来を示しています。
ターゲットユーザー :
テキストツーイメージ合成、画像生成タスクに使用
製品特徴
高精細な画像の生成
テキストプロンプトの理解とそれに対応した画像の生成
超解像度画像生成のサポート
おすすめAI製品

Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
中国語精選

剪映dreamina
剪映DreaminaはTikTok(抖音)が提供するAIGCツールです。テキストを入力すると、AIが自動的にクリエイティブな画像を生成します。画像サイズやアスペクト比、テンプレートの種類も調整可能です。将来的には、TikTokの画像投稿やショート動画のコンテンツ制作にも活用され、TikTokのAIによるコンテンツ制作の充実を図ります。
AI画像生成
9.0M