Deep floyd
D
Deep Floyd
簡介 :
Deep floyd是一個開源的文本到圖像模型,具有高度的寫實性和語言理解能力。它由一個凍結的文本編碼器和三個級聯的像素擴散模塊組成:一個基礎模型用於根據文本提示生成 64x64 像素的圖像,以及兩個超分辨率模型,分別用於生成分辨率逐漸增加的圖像:256x256 像素和 1024x1024 像素。模型的所有階段都利用基於 T5 transformer 的凍結文本編碼器來提取文本嵌入,然後將其輸入到一個增強了交叉注意力和注意力池化的 UNet 架構中。這個高效的模型在性能上超過了當前的最先進模型,在 COCO 數據集上實現了零樣本 FID 得分為 6.66。我們的工作強調了級聯擴散模型的第一階段中更大的 UNet 架構的潛力,並展示了文本到圖像合成的一個有前途的未來。
需求人群 :
用於文本到圖像合成、圖像生成任務
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 50.5K
產品特色
生成高度寫實的圖像
理解文本提示並生成相應圖像
支持超分辨率圖像生成
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase