Deep Floyd : 高精細なテキストツーイメージモデル

Deep Floyd

AI画像生成 AIモデル #テキストツーイメージ #画像合成 #写実性 #自然言語理解通常製品オープンソース

紹介 :

Deep Floydは、高い写実性と自然言語理解能力を備えたオープンソースのテキストツーイメージモデルです。凍結されたテキストエンコーダと3つのカスケード接続されたピクセル拡散モジュールで構成されています。基礎モデルはテキストプロンプトに基づいて64x64ピクセルの画像を生成し、2つの超解像度モデルはそれぞれ、256x256ピクセルと1024x1024ピクセルへと解像度を段階的に向上させた画像を生成します。モデルのすべての段階で、T5 Transformerベースの凍結されたテキストエンコーダを使用してテキスト埋め込みを抽出し、それをクロスアテンションとアテンションプーリングが強化されたUNetアーキテクチャに入力します。この効率的なモデルは、最先端モデルを上回る性能を示し、COCOデータセットにおいてゼロショットFIDスコア6.66を達成しました。本研究は、カスケード拡散モデルの第1段階におけるより大規模なUNetアーキテクチャの可能性を強調し、テキストツーイメージ合成の有望な未来を示しています。

ターゲットユーザー :

テキストツーイメージ合成、画像生成タスクに使用

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 50.2K

製品特徴

高精細な画像の生成

テキストプロンプトの理解とそれに対応した画像の生成

超解像度画像生成のサポート