3D生成

# 3D生成

GaussianCity

GaussianCity是一个专注于高效生成无边界3D城市的框架，基于3D高斯绘制技术。该技术通过紧凑的3D场景表示和空间感知的高斯属性解码器，解决了传统方法在生成大规模城市场景时面临的内存和计算瓶颈。其主要优点是能够在单次前向传递中快速生成大规模3D城市，显著优于现有技术。该产品由南洋理工大学S-Lab团队开发，相关论文发表于CVPR 2025，代码和模型已开源，适用于需要高效生成3D城市环境的研究人员和开发者。

TRELLIS

TRELLIS是一个基于统一结构化潜在表示和修正流变换器的原生3D生成模型，能够实现多样化和高质量的3D资产创建。该模型通过整合稀疏的3D网格和从强大的视觉基础模型提取的密集多视图视觉特征，全面捕获结构（几何）和纹理（外观）信息，同时在解码过程中保持灵活性。TRELLIS模型能够处理高达20亿参数，并在包含50万个多样化对象的大型3D资产数据集上进行训练。该模型在文本或图像条件下生成高质量结果，显著超越现有方法，包括规模相似的最近方法。TRELLIS还展示了灵活的输出格式选择和局部3D编辑能力，这些是以前模型所没有提供的。代码、模型和数据将被发布。

Generating Worlds

Generating Worlds

这是一个能够从单张图片生成3D世界的AI系统，它允许用户进入任何图片并进行3D探索。这项技术改善了控制和一致性，将改变我们制作电影、游戏、模拟器以及其他数字表现形式的方式。它代表了空间智能的第一步，通过在浏览器中实时渲染生成的世界，用户可以体验不同的相机效果、3D效果，并深入探索经典画作。

GenXD

GenXD是一个专注于3D和4D场景生成的框架，它利用日常生活中常见的相机和物体运动来联合研究一般的3D和4D生成。由于社区缺乏大规模的4D数据，GenXD首先提出了一个数据策划流程，从视频中获取相机姿态和物体运动强度。基于此流程，GenXD引入了一个大规模的现实世界4D场景数据集：CamVid-30K。通过利用所有3D和4D数据，GenXD框架能够生成任何3D或4D场景。它提出了多视图-时间模块，这些模块分离相机和物体运动，无缝地从3D和4D数据中学习。此外，GenXD还采用了掩码潜在条件，以支持多种条件视图。GenXD能够生成遵循相机轨迹的视频以及可以提升到3D表示的一致3D视图。它在各种现实世界和合成数据集上进行了广泛的评估，展示了GenXD在3D和4D生成方面与以前方法相比的有效性和多功能性。

Hunyuan3D-1

Hunyuan3D-1是腾讯推出的一个统一框架，用于文本到3D和图像到3D的生成。该框架采用两阶段方法，第一阶段使用多视图扩散模型快速生成多视图RGB图像，第二阶段通过前馈重建模型快速重建3D资产。Hunyuan3D-1.0在速度和质量之间取得了令人印象深刻的平衡，显著减少了生成时间，同时保持了生成资产的质量和多样性。

腾讯混元3D

腾讯混元3D是一个开源的3D生成模型，旨在解决现有3D生成模型在生成速度和泛化能力上的不足。该模型采用两阶段生成方法，第一阶段使用多视角扩散模型快速生成多视角图像，第二阶段通过前馈重建模型快速重建3D资产。混元3D-1.0模型能够帮助3D创作者和艺术家自动化生产3D资产，支持快速单图生3D，10秒内完成端到端生成，包括mesh和texture提取。

DreamMesh4D

DreamMesh4D是一个结合了网格表示与稀疏控制变形技术的新型框架，能够从单目视频中生成高质量的4D对象。该技术通过结合隐式神经辐射场（NeRF）或显式的高斯绘制作为底层表示，解决了传统方法在空间-时间一致性和表面纹理质量方面的挑战。DreamMesh4D利用现代3D动画流程的灵感，将高斯绘制绑定到三角网格表面，实现了纹理和网格顶点的可微优化。该框架开始于由单图像3D生成方法提供的粗糙网格，通过均匀采样稀疏点来构建变形图，以提高计算效率并提供额外的约束。通过两阶段学习，结合参考视图光度损失、得分蒸馏损失以及其他正则化损失，实现了静态表面高斯和网格顶点以及动态变形网络的学习。DreamMesh4D在渲染质量和空间-时间一致性方面优于以往的视频到4D生成方法，并且其基于网格的表示与现代几何流程兼容，展示了其在3D游戏和电影行业的潜力。

3DTopia-XL

3DTopia-XL 是一个基于扩散变换器（DiT）构建的高质量3D资产生成技术，使用一种新颖的3D表示方法 PrimX。该技术能够将3D形状、纹理和材质编码到一个紧凑的N x D张量中，每个标记是一个体积原语，锚定在形状表面上，用体素化载荷编码符号距离场（SDF）、RGB和材质。这一过程仅需5秒即可从文本/图像输入生成3D PBR资产，适用于图形管道。

Phidias

Phidias是一个创新的生成模型，它利用扩散技术进行参考增强的3D生成。该模型通过图像、文本或3D条件生成高质素的3D资产，并且能够在几秒钟内完成。它通过整合三个关键组件：动态调节条件强度的Meta-ControlNet、动态参考路由以及自参考增强，显著提高了生成质量、泛化能力和可控性。Phidias为使用文本、图像和3D条件进行3D生成提供了统一框架，并具有多种应用场景。

VFusion3D

VFusion3D是一种基于预训练的视频扩散模型构建的可扩展3D生成模型。它解决了3D数据获取困难和数量有限的问题，通过微调视频扩散模型生成大规模合成多视角数据集，训练出能够从单张图像快速生成3D资产的前馈3D生成模型。该模型在用户研究中表现出色，用户超过90%的时间更倾向于选择VFusion3D生成的结果。

Ouroboros3D

Ouroboros3D是一个统一的3D生成框架，它将基于扩散的多视图图像生成和3D重建集成到一个递归扩散过程中。该框架通过自条件机制联合训练这两个模块，使它们能够相互适应，以实现鲁棒的推理。在多视图去噪过程中，多视图扩散模型使用由重建模块在前一时间步渲染的3D感知图作为附加条件。递归扩散框架与3D感知反馈相结合，提高了整个过程的几何一致性。实验表明，Ouroboros3D框架在性能上优于将这两个阶段分开训练的方法，以及在推理阶段将它们结合起来的现有方法。

Interactive3D

Interactive3D是一个先进的3D生成模型，它通过交互式设计为用户提供了精确的控制能力。该模型采用两阶段级联结构，利用不同的3D表示方法，允许用户在生成过程的任何中间步骤进行修改和引导。它的重要性在于能够实现用户对3D模型生成过程的精细控制，从而创造出满足特定需求的高质量3D模型。

GRM

GRM是一种大规模的重建模型,能够在0.1秒内从稀疏视图图像中恢复3D资产,并且在8秒内实现生成。它是一种前馈的基于Transformer的模型,能够高效地融合多视图信息将输入像素转换为像素对齐的高斯分布,这些高斯分布可以反投影成为表示场景的密集3D高斯分布集合。我们的Transformer架构和使用3D高斯分布的方式解锁了一种可扩展、高效的重建框架。大量实验结果证明了我们的方法在重建质量和效率方面优于其他替代方案。我们还展示了GRM在生成任务(如文本到3D和图像到3D)中的潜力,通过与现有的多视图扩散模型相结合。

Stable Video 3D

Stable Video 3D

Stable Video 3D是Stability AI推出的新模型，它在3D技术领域取得了显著进步，与之前发布的Stable Zero123相比，提供了大幅改进的质量和多视角支持。该模型能够在没有相机条件的情况下，基于单张图片输入生成轨道视频，并且能够沿着指定的相机路径创建3D视频。

LGM

LGM是一个用于从文本提示或单视图图像生成高分辨率3D模型的新框架。它的关键见解是:(1) 3D表示:我们提出了多视图高斯特征作为一个高效 yet 强大的表示,然后可以将其融合在一起进行不同iable 渲染。(2) 3D主干:我们呈现了一个不对称U-Net作为一个高通量的主干操作多视图图像,这可以通过利用多视图扩散模型从文本或单视图图像输入中产生。大量的实验表明了我们方法的高保真度和效率。值得注意的是,我们在将训练分辨率提高到512的同时保持生成3D对象的快速速度,从而实现了高分辨率的3D内容生成。

HexaGen3D

HexaGen3D是一种用于从文本提示生成高质量3D资产的创新方法。它利用大型预训练的2D扩散模型，通过微调预训练的文本到图像模型来联合预测6个正交投影和相应的潜在三面体，然后解码这些潜在值以生成纹理网格。HexaGen3D不需要每个样本的优化，可在7秒内从文本提示中推断出高质量且多样化的对象，相较于现有方法，提供了更好的质量与延迟权衡。此外，HexaGen3D对于新对象或组合具有很强的泛化能力。

GPTEval3D

GPTEval3D是一个开源的3D生成模型评价工具,基于GPT-4V实现了对文本到3D生成模型的自动评测。它可以计算生成模型的ELO分数,并与现有模型进行对比排名。该工具简单易用,支持用户自定义评测数据集,可以充分发挥GPT-4V的评测效果,是研究3D生成任务的有力工具。

Flythroughs

Flythroughs是一款基于AI和3D生成技术的应用程序，可以帮助用户轻松地创建专业的3D Flythroughs。它采用了世界上最先进的3D生成NeRF技术，可以从视频中生成逼真的3D体验，无需任何培训或特殊设备。Flythroughs还集成了全新的3D相机路径AI，可以一键生成逼真的3D体验。Flythroughs适用于房地产、建筑、旅游、娱乐等领域，可以帮助用户展示空间的流动性和独特之处。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase