3D建模

# 3D建模

AI Doll

AI Doll利用先进的AI技术，通过GPT 4.0生成图像，将您的文本描述转化为精美的实体动作人偶。通过AI图像生成、3D建模和专业打印，AI Doll提供全面的AI动作人偶制作解决方案。

MIDI

MIDI是一种创新的图像到3D场景生成技术，它利用多实例扩散模型，能够从单张图像中直接生成具有准确空间关系的多个3D实例。该技术的核心在于其多实例注意力机制，能够有效捕捉物体间的交互和空间一致性，无需复杂的多步骤处理。MIDI在图像到场景生成领域表现出色，适用于合成数据、真实场景数据以及由文本到图像扩散模型生成的风格化场景图像。其主要优点包括高效性、高保真度和强大的泛化能力。

Funes

Funes是一个创新的在线博物馆项目，通过众包摄影测量技术将全球人类建筑转化为3D模型，旨在创建一个免费、可访问的庞大3D数据库。该项目以阿根廷作家博尔赫斯笔下的'博闻强记的福内斯'命名，象征着对人类物质记忆的永恒保存。Funes不仅是一个技术展示平台，更是一个文化传承项目，通过数字化手段保护人类文明的建筑遗产。

Shapen

Shapen是一款创新的在线工具，它利用先进的图像处理和3D建模技术，将2D图像转化为详细的3D模型。这一技术对于设计师、艺术家和创意工作者来说是一个巨大的突破，因为它极大地简化了3D模型的创建过程，降低了3D建模的门槛。用户无需深厚的3D建模知识，只需上传图片，即可快速生成可用于渲染、动画制作或3D打印的模型。Shapen的出现，为创意表达和产品设计带来了全新的可能性，其定价策略和市场定位也使其成为个人创作者和小型工作室的理想选择。

Stable Point Aware 3D

Stable Point Aware 3D

Stable Point Aware 3D (SPAR3D) 是 Stability AI 推出的先进3D生成模型。它能够在不到一秒的时间内，从单张图像中实现3D对象的实时编辑和完整结构生成。SPAR3D采用独特的架构，结合精确的点云采样与先进的网格生成技术，为3D资产创建提供了前所未有的控制力。该模型免费提供给商业和非商业用途，可在Hugging Face下载权重，GitHub获取代码，或通过Stability AI开发者平台API访问。

Text-to-CAD UI

Text-to-CAD UI是一个利用自然语言提示生成B-Rep CAD文件和网格的平台。它通过ML-ephant API，由Zoo提供支持，能够将用户的自然语言描述直接转化为精确的CAD模型。这项技术的重要性在于它极大地简化了设计过程，使得非专业人士也能轻松创建复杂的CAD模型，从而推动了设计的民主化和创新。产品背景信息显示，它是由Zoo开发的，旨在通过机器学习技术提升设计效率。关于价格和定位，用户需要登录后才能获取更多信息。

Explorer

Explorer是由Odyssey推出的生成式世界模型，旨在通过人工智能技术加速电影和游戏世界的创造过程，并开启全新的娱乐形式。该技术由皮克斯联合创始人Ed Catmull支持，代表了电影、游戏以及更广泛娱乐领域中的下一个重大技术突破。Explorer能够将任何图像转化为详细的3D世界，具有生成逼真世界的能力，并且支持手动编辑，以适应不同的创作需求。

IC-Light V2-Vary

IC Light V2 Vary

IC-Light V2-Vary是一款基于扩散模型的光照编辑工具，主要针对复杂光照场景中的图像生成和编辑问题，提供了光照一致性约束、大规模数据支持、精确光照编辑等功能。它通过物理光传输理论确保物体在不同光照条件下的表现可以线性组合，减少图像伪影，保持输出结果与实际物理光照条件一致。适用于摄影师、设计师及3D建模专业人士，同时为艺术创作者提供了更多可能性。

LLaMA-Mesh

LLaMA-Mesh是一项将大型语言模型（LLMs）预训练在文本上扩展到生成3D网格的能力的技术。这项技术利用了LLMs中已经嵌入的空间知识，并实现了对话式3D生成和网格理解。LLaMA-Mesh的主要优势在于它能够将3D网格的顶点坐标和面定义表示为纯文本，允许与LLMs直接集成而无需扩展词汇表。该技术的主要优点包括能够从文本提示生成3D网格、按需产生交错的文本和3D网格输出，以及理解和解释3D网格。LLaMA-Mesh在保持强大的文本生成性能的同时，实现了与从头开始训练的模型相当的网格生成质量。

Snapdragon X Series

Snapdragon X Series

Snapdragon X Series是高通推出的新一代产品系列，通过搭载神经处理单元（NPU），为创作者提供了强大的AI算力。这一系列产品能够显著提升移动设备在图像处理、音频制作和3D建模等方面的性能，同时延长电池续航，为用户提供前所未有的移动创作体验。Snapdragon X Series的推出，标志着移动设备在创意工作领域的一次重大飞跃，使得专业级的创作工具可以随时随地被使用。

开发与工具

GGHead

GGHead是一种基于3D高斯散射表示的3D生成对抗网络（GAN），用于从2D图像集合中学习3D头部先验。该技术通过利用模板头部网格的UV空间的规则性，预测一组3D高斯属性，从而简化了预测过程。GGHead的主要优点包括高效率、高分辨率生成、全3D一致性，并且能够实现实时渲染。它通过一种新颖的总变差损失来提高生成的3D头部的几何保真度，确保邻近渲染像素来自UV空间中相近的高斯。

Kanai

Kanai是一个在线设计平台，允许用户通过3D扫描和模型创建来设计他们梦想中的家。用户可以导入房间和家具的3D模型，分享他们的设计愿景，并与他人协作。Kanai利用先进的3D技术，为用户提供了一个直观且互动性强的设计体验，帮助他们将想象变为现实。

A Diffusion Approach to Radiance Field Relighting using Multi-Illumination Synthesis

A Diffusion Approach To Radiance Field Relighting Using Multi Illumination Synthesis

这是一种通过利用从2D图像扩散模型提取的先验来创建可重新照明的辐射场的方法。该方法能够将单照明条件下捕获的多视图数据转换为具有多照明效果的数据集，并通过3D高斯splats表示可重新照明的辐射场。这种方法不依赖于精确的几何形状和表面法线，因此更适合处理具有复杂几何形状和反射BRDF的杂乱场景。

Stability AI

Stability AI是一个专注于生成式人工智能技术的公司，提供多种AI模型，包括文本到图像、视频、音频、3D和语言模型。这些模型能够处理复杂提示，生成逼真的图像和视频，以及高质量的音乐和音效。公司提供灵活的许可选项，包括自托管许可和平台API，以满足不同用户的需求。Stability AI致力于通过开放模型，为全球每个人提供高质量的AI服务。

World Labs

World Labs 是一家专注于空间智能的公司，致力于构建大型世界模型（Large World Models），以感知、生成和与3D世界进行互动。公司由AI领域的知名科学家、教授、学者和行业领导者共同创立，包括斯坦福大学的Fei-Fei Li教授、密歇根大学的Justin Johnson教授等。他们通过创新的技术和方法，如神经辐射场（NeRF）技术，推动了3D场景重建和新视角合成的发展。World Labs 得到了包括Marc Benioff、Jim Breyer等知名投资者的支持，其技术在AI领域具有重要的应用价值和商业潜力。

Render Artist

Render Artist 是一个展示数字艺术作品的平台，包括3D建模、动画、AI生成艺术等。它为艺术家提供了一个展示他们从草图到成品渲染作品的空间，同时也为观众提供了欣赏和学习数字艺术的机会。该平台强调创意和技术的结合，展示了数字艺术的多样性和创新性。

HeadGAP

HeadGAP是一个先进的3D头像创建模型，它能够从少量甚至单张目标人物的图片中创建出逼真且可动画化的3D头像。该模型通过利用大规模多视角动态数据集来学习3D头部先验知识，并通过高斯Splatting基础的自解码网络实现动态建模。HeadGAP通过身份共享编码和个性化潜在代码来学习高斯原语的属性，实现了快速的头像个性化定制。

Prompt3D

Prompt3D是一个在线平台，允许用户通过简单的文本提示来生成3D模型。这项技术结合了人工智能和3D建模，使得设计过程更加快速和直观。它适用于需要快速原型设计和3D可视化的专业人士和爱好者。

SF3D

SF3D是一个基于深度学习的3D资产生成模型，它能够从单张图片中快速生成具有UV展开和材质参数的带纹理3D模型。与传统方法相比，SF3D特别针对网格生成进行了训练，集成了快速UV展开技术，能够迅速生成纹理而不是依赖顶点颜色。此外，该模型还能学习材质参数和法线贴图，以提高重建模型的视觉质量。SF3D还引入了一个去照明步骤，有效去除低频照明效果，确保重建的网格在新的照明条件下易于使用。

Stable Fast 3D

Stable Fast 3D (SF3D) 是一个基于TripoSR的大型重建模型，能够从单张物体图片生成带有纹理的UV展开3D网格资产。该模型训练有素，能在不到一秒的时间内创建3D模型，具有较低的多边形计数，并且进行了UV展开和纹理处理，使得模型在下游应用如游戏引擎或渲染工作中更易于使用。此外，模型还能预测每个物体的材料参数（粗糙度、金属感），在渲染过程中增强反射行为。SF3D适用于需要快速3D建模的领域，如游戏开发、电影特效制作等。

LLaVA-NeXT

LLaVA-NeXT是一个大型多模态模型，它通过统一的交错数据格式处理多图像、视频、3D和单图像数据，展示了在不同视觉数据模态上的联合训练能力。该模型在多图像基准测试中取得了领先的结果，并在不同场景中通过适当的数据混合提高了之前单独任务的性能或保持了性能。

CharacterGen

CharacterGen是一个高效的3D角色生成框架，能够从单张输入图片生成具有高质量和一致外观的3D姿势统一的角色网格。它通过流线化的生成管道和图像条件多视图扩散模型，有效校准输入姿势到规范形式，同时保留输入图像的关键属性，解决了多样化姿势带来的挑战。它还采用了基于变换器的通用稀疏视图重建模型，以及纹理反投影策略，生成高质量的纹理图。

GaussianCube

GaussianCube是一种创新的3D辐射表示方法，它通过结构化和显式的表示方式，极大地促进了三维生成建模的发展。该技术通过使用一种新颖的密度约束高斯拟合算法和最优传输方法，将高斯函数重新排列到预定义的体素网格中，从而实现了高精度的拟合。与传统的隐式特征解码器或空间无结构的辐射表示相比，GaussianCube具有更少的参数和更高的质量，使得3D生成建模变得更加容易。

ID-to-3D

ID-to-3D是一种创新的方法，它能够从一张随意拍摄的野外图片中生成具有身份和文本引导的3D人头模型，具有分离的表情。该方法基于组合性，使用特定任务的2D扩散模型作为优化的先验。通过扩展基础模型并添加轻量级的表情感知和身份感知架构，创建了2D先验，用于几何和纹理生成，并通过微调仅0.2%的可用训练参数。结合强大的面部身份嵌入和神经表示，该方法不仅能够准确重建面部特征，还能重建配饰和头发，并可提供适用于游戏和远程呈现的渲染就绪资产。

Unique3D

Unique3D是由清华大学团队开发的一项技术，能够从单张图片中生成高保真度的纹理3D网格模型。这项技术在图像处理和3D建模领域具有重要意义，它使得用户能够快速将2D图像转化为3D模型，为游戏开发、动画制作、虚拟现实等领域提供了强大的技术支持。

CAT3D

CAT3D是一个利用多视角扩散模型从任意数量的输入图像生成新视角的3D场景的网站。它通过一个强大的3D重建管道，将生成的视图转化为可交互渲染的3D表示。整个处理时间（包括视图生成和3D重建）仅需一分钟。

IntrinsicAnything

Intrinsicanything

IntrinsicAnything 是一种先进的图像逆渲染技术，它通过学习扩散模型来优化材质恢复过程，解决了在未知静态光照条件下捕获的图像中物体材质恢复的问题。该技术通过生成模型学习材质先验，将渲染方程分解为漫反射和镜面反射项，利用现有丰富的3D物体数据进行训练，有效地解决了逆渲染过程中的歧义问题。此外，该技术还开发了一种从粗到细的训练策略，利用估计的材质引导扩散模型产生多视图一致性约束，从而获得更稳定和准确的结果。

InstantMesh

InstantMesh是一个基于LRM架构的前馈框架，用于从单张图像高效生成3D网格。它支持低内存GPU环境，并能生成具有纹理映射的3D网格模型。

123kanfang.com

123看房是国内主流看房技术方案的定义者，通过全景照片进行3D建模技术的始创者。提供在线VR看房与虚拟家装的技术，可以通过全景图生成3D模型。其技术创造了低成本、高效率、易操作的全景看房和虚拟家装方案。该产品适用于房地产行业，可以实现远程看房、720全景、商业空间等多种功能。

PhysAvatar

PhysAvatar是一个结合逆向渲染和逆向物理的创新框架,可以从多视角视频数据中自动估计人体形状、外表以及服装的物理参数。它采用网格对齐的4D高斯时空网格跟踪技术和基于物理的逆向渲染器来估计内在的材料属性。PhysAvatar集成了物理模拟器,使用基于梯度的优化方法以原理性的方式估计服装的物理参数。这些创新能力使PhysAvatar能够在训练数据之外的运动和照明条件下,渲染出高质量的穿着宽松衣服的新视角头像。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase