Deep Floyd
D
Deep Floyd
紹介 :
Deep Floydは、高い写実性と自然言語理解能力を備えたオープンソースのテキストツーイメージモデルです。凍結されたテキストエンコーダと3つのカスケード接続されたピクセル拡散モジュールで構成されています。基礎モデルはテキストプロンプトに基づいて64x64ピクセルの画像を生成し、2つの超解像度モデルはそれぞれ、256x256ピクセルと1024x1024ピクセルへと解像度を段階的に向上させた画像を生成します。モデルのすべての段階で、T5 Transformerベースの凍結されたテキストエンコーダを使用してテキスト埋め込みを抽出し、それをクロスアテンションとアテンションプーリングが強化されたUNetアーキテクチャに入力します。この効率的なモデルは、最先端モデルを上回る性能を示し、COCOデータセットにおいてゼロショットFIDスコア6.66を達成しました。本研究は、カスケード拡散モデルの第1段階におけるより大規模なUNetアーキテクチャの可能性を強調し、テキストツーイメージ合成の有望な未来を示しています。
ターゲットユーザー :
テキストツーイメージ合成、画像生成タスクに使用
総訪問数: 502.6M
最も高い割合の地域: US(19.34%)
ウェブサイト閲覧数 : 50.2K
製品特徴
高精細な画像の生成
テキストプロンプトの理解とそれに対応した画像の生成
超解像度画像生成のサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase