图像合成

# 图像合成

DynamicControl

DynamicControl是一个用于提升文本到图像扩散模型控制力的框架。它通过动态组合多样的控制信号，支持自适应选择不同数量和类型的条件，以更可靠和详细地合成图像。该框架首先使用双循环控制器，利用预训练的条件生成模型和判别模型，为所有输入条件生成初始真实分数排序。然后，通过多模态大型语言模型（MLLM）构建高效条件评估器，优化条件排序。DynamicControl联合优化MLLM和扩散模型，利用MLLM的推理能力促进多条件文本到图像任务，最终排序的条件输入到并行多控制适配器，学习动态视觉条件的特征图并整合它们以调节ControlNet，增强对生成图像的控制。

Synthesys

Synthesys是一个AI内容生成平台，提供AI视频、AI语音和AI图像生成服务。它通过使用先进的人工智能技术，帮助用户以更低的成本和更简单的操作生成专业级别的内容。Synthesys的产品背景基于当前市场对于高质量、低成本内容生成的需求，其主要优点包括支持多种语言的超真实语音合成、无需专业设备即可生成高清视频、以及用户友好的界面设计。平台的定价策略包括免费试用和不同级别的付费服务，定位于满足不同规模企业的内容生成需求。

Sana_600M_1024px

Sana 600M 1024px

Sana是一个由NVIDIA开发的文本到图像生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力，使得在笔记本电脑GPU上也能部署。它是一个基于线性扩散变换器(text-to-image generative model)的模型，拥有1648M参数，专门用于生成1024px基础的多尺度高宽图像。Sana模型的主要优点包括高分辨率图像生成、快速的合成速度以及强大的文本图像对齐能力。Sana模型的背景信息显示，它是基于开源代码开发的，可以在GitHub上找到源代码，同时它也遵循特定的许可证（CC BY-NC-SA 4.0 License）。

Sana_1600M_1024px_MultiLing

Sana 1600M 1024px MultiLing

Sana是一个由NVIDIA开发的文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。该模型以惊人的速度合成高分辨率、高质量的图像，并保持强大的文本-图像对齐能力，可部署在笔记本电脑GPU上。Sana模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，支持Emoji、中文和英文以及混合提示。

Sana-1.6B

Sana-1.6B是一个高效的高分辨率图像合成模型，它基于线性扩散变换器技术，能够生成高质量的图像。该模型由NVIDIA实验室开发，使用DC-AE技术，具有32倍的潜在空间，能够在多个GPU上运行，提供强大的图像生成能力。Sana-1.6B以其高效的图像合成能力和高质量的输出结果而闻名，是图像合成领域的重要技术。

Sana

Sana是一个文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。它以极快的速度合成高分辨率、高质量的图像，并保持强大的文本-图像对齐，可以部署在笔记本电脑GPU上。Sana的核心设计包括深度压缩自编码器、线性扩散变换器（DiT）、仅解码器的小型语言模型作为文本编码器，以及高效的训练和采样策略。Sana-0.6B与现代大型扩散模型相比，体积小20倍，测量吞吐量快100倍以上。此外，Sana-0.6B可以部署在16GB笔记本电脑GPU上，生成1024×1024分辨率图像的时间少于1秒。Sana使得低成本的内容创作成为可能。

OneDiffusion

OneDiffusion是一个多功能、大规模的扩散模型，它能够无缝支持双向图像合成和理解，覆盖多种任务。该模型预计将在12月初发布代码和检查点。OneDiffusion的重要性在于其能够处理图像合成和理解任务，这在人工智能领域是一个重要的进步，尤其是在图像生成和识别方面。产品背景信息显示，这是一个由多位研究人员共同开发的项目，其研究成果已在arXiv上发表。

Any Image Anywhere

Any Image Anywhere

Any Image Anywhere 是一个基于人工智能的图像处理工具，它允许用户通过简单的提示将输入图像放置到不同的上下文中，例如将能量饮料的商标放置在产品照片上。这项技术的重要性在于其能够快速创建逼真的图像合成，对于设计师、营销人员和内容创作者来说，这是一个强大的工具，可以节省大量的时间和资源。产品背景信息显示，它是由fab1an开发的，并且每天有20次的免费使用限制。

MagicFace

MagicFace是一种无需训练即可实现个性化人像合成的技术，它能够根据给定的多个概念生成高保真度的人像图像。这项技术通过精确地将参考概念特征在像素级别集成到生成区域中，实现了多概念的个性化定制。MagicFace引入了粗到细的生成流程，包括语义布局构建和概念特征注入两个阶段，通过Reference-aware Self-Attention (RSA)和Region-grouped Blend Attention (RBA)机制实现。该技术不仅在人像合成和多概念人像定制方面表现出色，还可用于纹理转移，增强其多功能性和实用性。

DiPIR

DiPIR是多伦多AI实验室与NVIDIA Research共同研发的一种基于物理的方法，它通过从单张图片中恢复场景照明，使得虚拟物体能够逼真地插入到室内外场景中。该技术不仅能够优化材质和色调映射，还能自动调整以适应不同的环境，提高图像的真实感。

UltraPixel

UltraPixel是一种先进的超高清图像合成技术，旨在推动图像分辨率达到新的高度。这项技术由香港科技大学（广州）、华为诺亚方舟实验室、马克斯·普朗克信息学研究所等机构共同研发。它在图像合成、文本到图像的转换、个性化定制等方面具有显著优势，能够生成高达4096x4096分辨率的图像，满足专业图像处理和视觉艺术的需求。

Jector

Jector是一个AI创作工具，专注于为产品摄影提供高质量的背景生成服务。它通过简化AI设置，提供独立的生成环境插槽，以及基于节点的图像生成历史记录，使得用户能够轻松创建和合成产品图像。Jector的主要优点包括无需复杂设置即可开始使用，提供简单但高度灵活的生成选项，自动产品合成，以及额外的清除和放大功能。此外，它还提供无限保存和下载功能，让用户可以轻松地为产品生成自己的心情历史。

TryOnDiffusion

TryOnDiffusion是一种创新的图像合成技术，它通过两个UNets（Parallel-UNet）的结合，实现了在单一网络中同时保持服装细节和适应显著的身体姿势及形状变化。这项技术在保持服装细节的同时，能够适应不同的身体姿势和形状，解决了以往方法在细节保持和姿势适应上的不足，达到了业界领先的性能。

HiDiffusion

HiDiffusion是一个预训练扩散模型，通过仅添加一行代码即可提高扩散模型的分辨率和速度。该模型通过Resolution-Aware U-Net (RAU-Net)和Modified Shifted Window Multi-head Self-Attention (MSW-MSA)技术，动态调整特征图大小以解决对象复制问题，并优化窗口注意力以减少计算量。HiDiffusion能够将图像生成分辨率扩展到4096×4096，同时保持1.5-6倍于以往方法的推理速度。

Hyper-SD

Hyper-SD是一个创新的图像合成框架，它通过轨迹分割一致性模型和低步数推理的优势，实现了高效的图像合成。该框架结合了ODE轨迹保留和重构的优势，同时通过人类反馈学习进一步提升了性能，并通过分数蒸馏技术增强了低步数生成能力。Hyper-SD在1到8步推理步骤中实现了SOTA性能，特别适合需要快速且高质量图像生成的应用场景。

MagicClothing

MagicClothing是一种基于潜在扩散模型（LDM）的新型网络架构，专门用于服装驱动的图像合成任务。它能够根据文本提示生成穿着特定服装的定制化角色图像，同时确保服装细节的保留和对文本提示的忠实呈现。该系统通过服装特征提取器和自注意力融合技术，实现了高度的图像可控性，并且可以与ControlNet和IP-Adapter等其他技术结合使用，以提升角色的多样性和可控性。此外，还开发了匹配点LPIPS（MP-LPIPS）评估指标，用于评价生成图像与原始服装的一致性。

Masked Diffusion Transformer (MDT)

Masked Diffusion Transformer (MDT)

MDT通过引入掩码潜在模型方案来显式增强扩散概率模型（DPMs）在图像中对象部分之间关系学习的能力。MDT在训练期间在潜在空间中操作，掩蔽某些标记，然后设计一个不对称的扩散变换器来从未掩蔽的标记中预测掩蔽的标记，同时保持扩散生成过程。MDTv2进一步通过更有效的宏网络结构和训练策略提高了MDT的性能。

Trajectory Consistency Distillation (TCD)

Trajectory Consistency Distillation (TCD)

TCD是一种用于文本到图像合成的一致性蒸馏技术，它通过轨迹一致性函数（TCF）和策略性随机采样（SSS）来减少合成过程中的错误。TCD在低NFE（噪声自由能量）时显著提高图像质量，并在高NFE时保持比教师模型更详细的结果。TCD不需要额外的判别器或LPIPS监督，即可在低NFE和高NFE时均保持优越的生成质量。

Orthogonal Finetuning (OFT)

Orthogonal Finetuning (OFT)

Controlling Text-to-Image Diffusion研究了如何有效引导或控制强大的文本到图像生成模型进行各种下游任务。提出了正交微调(OFT)方法,可以保持模型的生成能力。OFT可以保持神经元之间的超球面能量不变,防止模型坍塌。作者考虑了两种重要的微调任务:主体驱动生成和可控生成。结果表明,OFT方法在生成质量和收敛速度上优于现有方法。

InstantID

InstantID是一种基于强大扩散模型的解决方案，能够在各种风格下使用单张面部图像进行图像个性化处理，同时确保高保真度。我们设计了一个新颖的IdentityNet，通过施加强大的语义和弱空间条件，将面部和地标图像与文本提示集成，引导图像生成。InstantID在实际应用中表现出色，并且能够与流行的预训练文本到图像扩散模型（如SD1.5和SDXL）无缝集成，作为一个可适配的插件。我们的代码和预训练检查点将在此URL上提供。

Score Distillation Sampling

Score Distillation Sampling

Score Distillation Sampling（SDS）是一种新近但已经广泛流行的方法，依赖于图像扩散模型来控制使用文本提示的优化问题。该论文对SDS损失函数进行了深入分析，确定了其制定中的固有问题，并提出了一个出人意料但有效的修复方法。具体而言，我们将损失分解为不同因素，并分离出产生噪声梯度的组件。在原始制定中，使用高文本指导来账户噪声，导致了不良副作用。相反，我们训练了一个浅层网络，模拟图像扩散模型的时间步相关去噪不足，以有效地将其分解出来。我们通过多个定性和定量实验（包括基于优化的图像合成和编辑、零样本图像转换网络训练、以及文本到3D合成）展示了我们新颖损失制定的多功能性和有效性。

ReconFusion

ReconFusion是一种3D重建方法，利用扩散先验在只有少量照片的情况下重建真实世界场景。它结合Neural Radiance Fields（NeRFs）和扩散先验，能够在新的摄像机位置超出输入图像集合的情况下，合成逼真的几何和纹理。该方法通过在少量视图和多视图数据集上训练扩散先验，能够在不受约束的区域合成逼真的几何和纹理，同时保留观察区域的外观。ReconFusion在各种真实世界数据集上进行了广泛评估，包括前向和360度场景，展示出明显的性能改进。

SDXL TURBO ONLINE

SDXL TURBO ONLINE

SDXL Turbo是一款基于Adversarial Diffusion Distillation（ADD）技术的文本生成图像模型，能够快速生成高质量的图像。它是SDXL 1.0的改进版本，只需一次网络评估即可合成高质量逼真的图像。

GAIA

GAIA旨在从语音和单个肖像图像合成自然的对话视频。我们引入了GAIA（Avatar的生成AI），它消除了对话头像生成中的领域先验。GAIA分为两个阶段：1）将每帧分解为运动和外观表示；2）在语音和参考肖像图像的条件下生成运动序列。我们收集了大规模高质量的对话头像数据集，并在不同规模上对模型进行了训练。实验结果验证了GAIA的优越性、可扩展性和灵活性。方法包括变分自动编码器（VAE）和扩散模型。扩散模型被优化为在语音序列和视频片段中的随机帧的条件下生成运动序列。GAIA可用于不同的应用，如可控对话头像生成和文本指导的头像生成。

luosiallen LCM

luosiallen/latent-consistency-model 是一个用于合成高分辨率图像的模型。它使用少量的推理步骤来生成具有良好一致性的图像。该模型支持自定义的输入提示和参数调整，可生成逼真的艺术品、人像等图像。

Deep floyd

Deep floyd是一个开源的文本到图像模型，具有高度的写实性和语言理解能力。它由一个冻结的文本编码器和三个级联的像素扩散模块组成：一个基础模型用于根据文本提示生成 64x64 像素的图像，以及两个超分辨率模型，分别用于生成分辨率逐渐增加的图像：256x256 像素和 1024x1024 像素。模型的所有阶段都利用基于 T5 transformer 的冻结文本编码器来提取文本嵌入，然后将其输入到一个增强了交叉注意力和注意力池化的 UNet 架构中。这个高效的模型在性能上超过了当前的最先进模型，在 COCO 数据集上实现了零样本 FID 得分为 6.66。我们的工作强调了级联扩散模型的第一阶段中更大的 UNet 架构的潜力，并展示了文本到图像合成的一个有前途的未来。

Runway gen2

Gen-2是一款多模态人工智能系统，可以根据文字、图片或视频剪辑生成新颖的视频。它可以通过将图像或文字提示的构图和风格应用于源视频的结构（Video to Video），或者仅使用文字（Text to Video）来实现。就像拍摄了全新的内容，而实际上并没有拍摄任何东西。Gen-2提供了多种模式，可以将任何图像、视频剪辑或文字提示转化为引人注目的影片作品。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase