Deep Floyd : 高度寫實的文本到圖像模型

Deep Floyd

AI圖像生成 AI模型 #文本到圖像 #圖像合成 #寫實性 #語言理解普通產品開源

簡介 :

Deep floyd是一個開源的文本到圖像模型，具有高度的寫實性和語言理解能力。它由一個凍結的文本編碼器和三個級聯的像素擴散模塊組成：一個基礎模型用於根據文本提示生成 64x64 像素的圖像，以及兩個超分辨率模型，分別用於生成分辨率逐漸增加的圖像：256x256 像素和 1024x1024 像素。模型的所有階段都利用基於 T5 transformer 的凍結文本編碼器來提取文本嵌入，然後將其輸入到一個增強了交叉注意力和注意力池化的 UNet 架構中。這個高效的模型在性能上超過了當前的最先進模型，在 COCO 數據集上實現了零樣本 FID 得分為 6.66。我們的工作強調了級聯擴散模型的第一階段中更大的 UNet 架構的潛力，並展示了文本到圖像合成的一個有前途的未來。

需求人群 :

用於文本到圖像合成、圖像生成任務

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 50.5K

產品特色

生成高度寫實的圖像

理解文本提示並生成相應圖像

支持超分辨率圖像生成