圖像合成

# 圖像合成

DynamicControl

DynamicControl是一個用於提升文本到圖像擴散模型控制力的框架。它通過動態組合多樣的控制信號，支持自適應選擇不同數量和類型的條件，以更可靠和詳細地合成圖像。該框架首先使用雙循環控制器，利用預訓練的條件生成模型和判別模型，為所有輸入條件生成初始真實分數排序。然後，通過多模態大型語言模型（MLLM）構建高效條件評估器，優化條件排序。DynamicControl聯合優化MLLM和擴散模型，利用MLLM的推理能力促進多條件文本到圖像任務，最終排序的條件輸入到並行多控制適配器，學習動態視覺條件的特徵圖並整合它們以調節ControlNet，增強對生成圖像的控制。

Synthesys

Synthesys是一個AI內容生成平臺，提供AI視頻、AI語音和AI圖像生成服務。它通過使用先進的人工智能技術，幫助用戶以更低的成本和更簡單的操作生成專業級別的內容。Synthesys的產品背景基於當前市場對於高質量、低成本內容生成的需求，其主要優點包括支持多種語言的超真實語音合成、無需專業設備即可生成高清視頻、以及用戶友好的界面設計。平臺的定價策略包括免費試用和不同級別的付費服務，定位於滿足不同規模企業的內容生成需求。

Sana_600M_1024px

Sana 600M 1024px

Sana是一個由NVIDIA開發的文本到圖像生成框架，能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度和強大的文本圖像對齊能力，使得在筆記本電腦GPU上也能部署。它是一個基於線性擴散變換器(text-to-image generative model)的模型，擁有1648M參數，專門用於生成1024px基礎的多尺度高寬圖像。Sana模型的主要優點包括高分辨率圖像生成、快速的合成速度以及強大的文本圖像對齊能力。Sana模型的背景信息顯示，它是基於開源代碼開發的，可以在GitHub上找到源代碼，同時它也遵循特定的許可證（CC BY-NC-SA 4.0 License）。

Sana_1600M_1024px_MultiLing

Sana 1600M 1024px MultiLing

Sana是一個由NVIDIA開發的文本到圖像的框架，能夠高效生成高達4096×4096分辨率的圖像。該模型以驚人的速度合成高分辨率、高質量的圖像，並保持強大的文本-圖像對齊能力，可部署在筆記本電腦GPU上。Sana模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，支持Emoji、中文和英文以及混合提示。

Sana-1.6B

Sana-1.6B是一個高效的高分辨率圖像合成模型，它基於線性擴散變換器技術，能夠生成高質量的圖像。該模型由NVIDIA實驗室開發，使用DC-AE技術，具有32倍的潛在空間，能夠在多個GPU上運行，提供強大的圖像生成能力。Sana-1.6B以其高效的圖像合成能力和高質量的輸出結果而聞名，是圖像合成領域的重要技術。

Sana

Sana是一個文本到圖像的框架，能夠高效生成高達4096×4096分辨率的圖像。它以極快的速度合成高分辨率、高質量的圖像，並保持強大的文本-圖像對齊，可以部署在筆記本電腦GPU上。Sana的核心設計包括深度壓縮自編碼器、線性擴散變換器（DiT）、僅解碼器的小型語言模型作為文本編碼器，以及高效的訓練和採樣策略。Sana-0.6B與現代大型擴散模型相比，體積小20倍，測量吞吐量快100倍以上。此外，Sana-0.6B可以部署在16GB筆記本電腦GPU上，生成1024×1024分辨率圖像的時間少於1秒。Sana使得低成本的內容創作成為可能。

OneDiffusion

OneDiffusion是一個多功能、大規模的擴散模型，它能夠無縫支持雙向圖像合成和理解，覆蓋多種任務。該模型預計將在12月初發布代碼和檢查點。OneDiffusion的重要性在於其能夠處理圖像合成和理解任務，這在人工智能領域是一個重要的進步，尤其是在圖像生成和識別方面。產品背景信息顯示，這是一個由多位研究人員共同開發的項目，其研究成果已在arXiv上發表。

Any Image Anywhere

Any Image Anywhere

Any Image Anywhere 是一個基於人工智能的圖像處理工具，它允許用戶通過簡單的提示將輸入圖像放置到不同的上下文中，例如將能量飲料的商標放置在產品照片上。這項技術的重要性在於其能夠快速創建逼真的圖像合成，對於設計師、營銷人員和內容創作者來說，這是一個強大的工具，可以節省大量的時間和資源。產品背景信息顯示，它是由fab1an開發的，並且每天有20次的免費使用限制。

MagicFace

MagicFace是一種無需訓練即可實現個性化人像合成的技術，它能夠根據給定的多個概念生成高保真度的人像圖像。這項技術通過精確地將參考概念特徵在像素級別集成到生成區域中，實現了多概念的個性化定製。MagicFace引入了粗到細的生成流程，包括語義佈局構建和概念特徵注入兩個階段，通過Reference-aware Self-Attention (RSA)和Region-grouped Blend Attention (RBA)機制實現。該技術不僅在人像合成和多概念人像定製方面表現出色，還可用於紋理轉移，增強其多功能性和實用性。

DiPIR

DiPIR是多倫多AI實驗室與NVIDIA Research共同研發的一種基於物理的方法，它通過從單張圖片中恢復場景照明，使得虛擬物體能夠逼真地插入到室內外場景中。該技術不僅能夠優化材質和色調映射，還能自動調整以適應不同的環境，提高圖像的真實感。

UltraPixel

UltraPixel是一種先進的超高清圖像合成技術，旨在推動圖像分辨率達到新的高度。這項技術由香港科技大學（廣州）、華為諾亞方舟實驗室、馬克斯·普朗克信息學研究所等機構共同研發。它在圖像合成、文本到圖像的轉換、個性化定製等方面具有顯著優勢，能夠生成高達4096x4096分辨率的圖像，滿足專業圖像處理和視覺藝術的需求。

Jector

Jector是一個AI創作工具，專注於為產品攝影提供高質量的背景生成服務。它通過簡化AI設置，提供獨立的生成環境插槽，以及基於節點的圖像生成歷史記錄，使得用戶能夠輕鬆創建和合成產品圖像。Jector的主要優點包括無需複雜設置即可開始使用，提供簡單但高度靈活的生成選項，自動產品合成，以及額外的清除和放大功能。此外，它還提供無限保存和下載功能，讓用戶可以輕鬆地為產品生成自己的心情歷史。

TryOnDiffusion

TryOnDiffusion是一種創新的圖像合成技術，它通過兩個UNets（Parallel-UNet）的結合，實現了在單一網絡中同時保持服裝細節和適應顯著的身體姿勢及形狀變化。這項技術在保持服裝細節的同時，能夠適應不同的身體姿勢和形狀，解決了以往方法在細節保持和姿勢適應上的不足，達到了業界領先的性能。

HiDiffusion

HiDiffusion是一個預訓練擴散模型，通過僅添加一行代碼即可提高擴散模型的分辨率和速度。該模型通過Resolution-Aware U-Net (RAU-Net)和Modified Shifted Window Multi-head Self-Attention (MSW-MSA)技術，動態調整特徵圖大小以解決對象複製問題，並優化窗口注意力以減少計算量。HiDiffusion能夠將圖像生成分辨率擴展到4096×4096，同時保持1.5-6倍於以往方法的推理速度。

Hyper-SD

Hyper-SD是一個創新的圖像合成框架，它通過軌跡分割一致性模型和低步數推理的優勢，實現了高效的圖像合成。該框架結合了ODE軌跡保留和重構的優勢，同時通過人類反饋學習進一步提升了性能，並通過分數蒸餾技術增強了低步數生成能力。Hyper-SD在1到8步推理步驟中實現了SOTA性能，特別適合需要快速且高質量圖像生成的應用場景。

MagicClothing

MagicClothing是一種基於潛在擴散模型（LDM）的新型網絡架構，專門用於服裝驅動的圖像合成任務。它能夠根據文本提示生成穿著特定服裝的定製化角色圖像，同時確保服裝細節的保留和對文本提示的忠實呈現。該系統通過服裝特徵提取器和自注意力融合技術，實現了高度的圖像可控性，並且可以與ControlNet和IP-Adapter等其他技術結合使用，以提升角色的多樣性和可控性。此外，還開發了匹配點LPIPS（MP-LPIPS）評估指標，用於評價生成圖像與原始服裝的一致性。

Masked Diffusion Transformer (MDT)

Masked Diffusion Transformer (MDT)

MDT通過引入掩碼潛在模型方案來顯式增強擴散概率模型（DPMs）在圖像中對象部分之間關係學習的能力。MDT在訓練期間在潛在空間中操作，掩蔽某些標記，然後設計一個不對稱的擴散變換器來從未掩蔽的標記中預測掩蔽的標記，同時保持擴散生成過程。MDTv2進一步通過更有效的宏網絡結構和訓練策略提高了MDT的性能。

Trajectory Consistency Distillation (TCD)

Trajectory Consistency Distillation (TCD)

TCD是一種用於文本到圖像合成的一致性蒸餾技術，它通過軌跡一致性函數（TCF）和策略性隨機採樣（SSS）來減少合成過程中的錯誤。TCD在低NFE（噪聲自由能量）時顯著提高圖像質量，並在高NFE時保持比教師模型更詳細的結果。TCD不需要額外的判別器或LPIPS監督，即可在低NFE和高NFE時均保持優越的生成質量。

Orthogonal Finetuning (OFT)

Orthogonal Finetuning (OFT)

Controlling Text-to-Image Diffusion研究瞭如何有效引導或控制強大的文本到圖像生成模型進行各種下游任務。提出了正交微調(OFT)方法,可以保持模型的生成能力。OFT可以保持神經元之間的超球面能量不變,防止模型坍塌。作者考慮了兩種重要的微調任務:主體驅動生成和可控生成。結果表明,OFT方法在生成質量和收斂速度上優於現有方法。

InstantID

InstantID是一種基於強大擴散模型的解決方案，能夠在各種風格下使用單張面部圖像進行圖像個性化處理，同時確保高保真度。我們設計了一個新穎的IdentityNet，通過施加強大的語義和弱空間條件，將面部和地標圖像與文本提示集成，引導圖像生成。InstantID在實際應用中表現出色，並且能夠與流行的預訓練文本到圖像擴散模型（如SD1.5和SDXL）無縫集成，作為一個可適配的插件。我們的代碼和預訓練檢查點將在此URL上提供。

Score Distillation Sampling

Score Distillation Sampling

Score Distillation Sampling（SDS）是一種新近但已經廣泛流行的方法，依賴於圖像擴散模型來控制使用文本提示的優化問題。該論文對SDS損失函數進行了深入分析，確定了其制定中的固有問題，並提出了一個出人意料但有效的修復方法。具體而言，我們將損失分解為不同因素，並分離出產生噪聲梯度的組件。在原始制定中，使用高文本指導來賬戶噪聲，導致了不良副作用。相反，我們訓練了一個淺層網絡，模擬圖像擴散模型的時間步相關去噪不足，以有效地將其分解出來。我們通過多個定性和定量實驗（包括基於優化的圖像合成和編輯、零樣本圖像轉換網絡訓練、以及文本到3D合成）展示了我們新穎損失制定的多功能性和有效性。

ReconFusion

ReconFusion是一種3D重建方法，利用擴散先驗在只有少量照片的情況下重建真實世界場景。它結合Neural Radiance Fields（NeRFs）和擴散先驗，能夠在新的攝像機位置超出輸入圖像集合的情況下，合成逼真的幾何和紋理。該方法通過在少量視圖和多視圖數據集上訓練擴散先驗，能夠在不受約束的區域合成逼真的幾何和紋理，同時保留觀察區域的外觀。ReconFusion在各種真實世界數據集上進行了廣泛評估，包括前向和360度場景，展示出明顯的性能改進。

SDXL TURBO ONLINE

SDXL TURBO ONLINE

SDXL Turbo是一款基於Adversarial Diffusion Distillation（ADD）技術的文本生成圖像模型，能夠快速生成高質量的圖像。它是SDXL 1.0的改進版本，只需一次網絡評估即可合成高質量逼真的圖像。

GAIA

GAIA旨在從語音和單個肖像圖像合成自然的對話視頻。我們引入了GAIA（Avatar的生成AI），它消除了對話頭像生成中的領域先驗。GAIA分為兩個階段：1）將每幀分解為運動和外觀表示；2）在語音和參考肖像圖像的條件下生成運動序列。我們收集了大規模高質量的對話頭像數據集，並在不同規模上對模型進行了訓練。實驗結果驗證了GAIA的優越性、可擴展性和靈活性。方法包括變分自動編碼器（VAE）和擴散模型。擴散模型被優化為在語音序列和視頻片段中的隨機幀的條件下生成運動序列。GAIA可用於不同的應用，如可控對話頭像生成和文本指導的頭像生成。

luosiallen LCM

luosiallen/latent-consistency-model 是一個用於合成高分辨率圖像的模型。它使用少量的推理步驟來生成具有良好一致性的圖像。該模型支持自定義的輸入提示和參數調整，可生成逼真的藝術品、人像等圖像。

Deep floyd

Deep floyd是一個開源的文本到圖像模型，具有高度的寫實性和語言理解能力。它由一個凍結的文本編碼器和三個級聯的像素擴散模塊組成：一個基礎模型用於根據文本提示生成 64x64 像素的圖像，以及兩個超分辨率模型，分別用於生成分辨率逐漸增加的圖像：256x256 像素和 1024x1024 像素。模型的所有階段都利用基於 T5 transformer 的凍結文本編碼器來提取文本嵌入，然後將其輸入到一個增強了交叉注意力和注意力池化的 UNet 架構中。這個高效的模型在性能上超過了當前的最先進模型，在 COCO 數據集上實現了零樣本 FID 得分為 6.66。我們的工作強調了級聯擴散模型的第一階段中更大的 UNet 架構的潛力，並展示了文本到圖像合成的一個有前途的未來。

Runway gen2

Gen-2是一款多模態人工智能系統，可以根據文字、圖片或視頻剪輯生成新穎的視頻。它可以通過將圖像或文字提示的構圖和風格應用於源視頻的結構（Video to Video），或者僅使用文字（Text to Video）來實現。就像拍攝了全新的內容，而實際上並沒有拍攝任何東西。Gen-2提供了多種模式，可以將任何圖像、視頻剪輯或文字提示轉化為引人注目的影片作品。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase