

Deep Floyd
簡介 :
Deep floyd是一個開源的文本到圖像模型,具有高度的寫實性和語言理解能力。它由一個凍結的文本編碼器和三個級聯的像素擴散模塊組成:一個基礎模型用於根據文本提示生成 64x64 像素的圖像,以及兩個超分辨率模型,分別用於生成分辨率逐漸增加的圖像:256x256 像素和 1024x1024 像素。模型的所有階段都利用基於 T5 transformer 的凍結文本編碼器來提取文本嵌入,然後將其輸入到一個增強了交叉注意力和注意力池化的 UNet 架構中。這個高效的模型在性能上超過了當前的最先進模型,在 COCO 數據集上實現了零樣本 FID 得分為 6.66。我們的工作強調了級聯擴散模型的第一階段中更大的 UNet 架構的潛力,並展示了文本到圖像合成的一個有前途的未來。
需求人群 :
用於文本到圖像合成、圖像生成任務
產品特色
生成高度寫實的圖像
理解文本提示並生成相應圖像
支持超分辨率圖像生成
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

剪映dreamina
剪映Dreamina是抖音旗下的AIGC工具,用戶可以根據文本內容生成由AI生成的創意圖,支持修整圖片大小比例和模板類型。未來會用於抖音的圖文或短視頻的內容創作,豐富抖音在AI創造方面的內容庫。
AI圖像生成
9.1M