3D重建

# 3D重建

Prompt Depth Anything

Prompt Depth Anything

Prompt Depth Anything是一種用於高分辨率和高精度度量深度估計的方法。該方法通過使用提示（prompting）技術，激發深度基礎模型的潛力，利用iPhone LiDAR作為提示，引導模型產生高達4K分辨率的精確度量深度。此外，該方法還引入了可擴展的數據管道進行訓練，併發布了更詳細的ScanNet++數據集深度註釋。該技術的主要優點包括高分辨率、高精度的深度估計，以及對下游應用如3D重建和通用機器人抓取的益處。

PSHuman

PSHuman是一個創新的框架，它利用多視圖擴散模型和顯式重構技術，從單張圖片中重建出逼真的3D人體模型。這項技術的重要性在於它能夠處理複雜的自遮擋問題，並且在生成的面部細節上避免了幾何失真。PSHuman通過跨尺度擴散模型聯合建模全局全身形狀和局部面部特徵，實現了細節豐富且保持身份特徵的新視角生成。此外，PSHuman還通過SMPL-X等參數化模型提供的身體先驗，增強了不同人體姿態下的跨視圖身體形狀一致性。PSHuman的主要優點包括幾何細節豐富、紋理保真度高以及泛化能力強。

CAT4D

CAT4D是一個利用多視圖視頻擴散模型從單目視頻中生成4D場景的技術。它能夠將輸入的單目視頻轉換成多視角視頻，並重建動態的3D場景。這項技術的重要性在於它能夠從單一視角的視頻資料中提取並重建出三維空間和時間的完整信息，為虛擬現實、增強現實以及三維建模等領域提供了強大的技術支持。產品背景信息顯示，CAT4D由Google DeepMind、Columbia University和UC San Diego的研究人員共同開發，是一個前沿的科研成果轉化為實際應用的案例。

LucidFusion

LucidFusion是一個靈活的端到端前饋框架，用於從未擺姿勢、稀疏和任意數量的多視圖圖像中生成高分辨率3D高斯。該技術利用相對座標圖（RCM）來對齊不同視圖間的幾何特徵，使其在3D生成方面具有高度適應性。LucidFusion能夠與原始單圖像到3D的流程無縫集成，生成512x512分辨率的詳細3D高斯，適合廣泛的應用場景。

Long-LRM

Long-LRM是一個用於3D高斯重建的模型，能夠從一系列輸入圖像中重建出大場景。該模型能在1.3秒內處理32張960x540分辨率的源圖像，並且僅在單個A100 80G GPU上運行。它結合了最新的Mamba2模塊和傳統的transformer模塊，通過高效的token合併和高斯修剪步驟，在保證質量的同時提高了效率。與傳統的前饋模型相比，Long-LRM能夠一次性重建整個場景，而不是僅重建場景的一小部分。在大規模場景數據集上，如DL3DV-140和Tanks and Temples，Long-LRM的性能可與基於優化的方法相媲美，同時效率提高了兩個數量級。

Flex3D

Flex3D是一個兩階段流程，能夠從單張圖片或文本提示生成高質量的3D資產。該技術代表了3D重建領域的最新進展，可以顯著提高3D內容的生成效率和質量。Flex3D的開發得到了Meta的支持，並且團隊成員在3D重建和計算機視覺領域有著深厚的背景。

ViewCrafter

ViewCrafter 是一種新穎的方法，它利用視頻擴散模型的生成能力以及基於點的表示提供的粗略3D線索，從單個或稀疏圖像合成通用場景的高保真新視角。該方法通過迭代視圖合成策略和相機軌跡規劃算法，逐步擴展3D線索和新視角覆蓋的區域，從而擴大新視角的生成範圍。ViewCrafter 可以促進各種應用，例如通過優化3D-GS表示實現沉浸式體驗和即時渲染，以及通過場景級文本到3D生成實現更富有想象力的內容創作。

OmniRe

OmniRe 是一種用於高效重建高保真動態城市場景的全面方法，它通過設備日誌來實現。該技術通過構建基於高斯表示的動態神經場景圖，以及構建多個局部規範空間來模擬包括車輛、行人和騎行者在內的各種動態行為者，從而實現了對場景中不同對象的全面重建。OmniRe 允許我們全面重建場景中存在的不同對象，並隨後實現所有參與者即時參與的重建場景的模擬。在 Waymo 數據集上的廣泛評估表明，OmniRe 在定量和定性方面都大幅超越了先前的最先進方法。

GenWarp

GenWarp是一個用於從單張圖像生成新視角圖像的模型，它通過語義保持的生成變形框架，使文本到圖像的生成模型能夠學習在哪裡變形和在哪裡生成。該模型通過增強交叉視角注意力與自注意力來解決現有方法的侷限性，通過條件化生成模型在源視圖圖像上，並納入幾何變形信號，提高了在不同領域場景下的性能。

Ouroboros3D

Ouroboros3D是一個統一的3D生成框架，它將基於擴散的多視圖圖像生成和3D重建集成到一個遞歸擴散過程中。該框架通過自條件機制聯合訓練這兩個模塊，使它們能夠相互適應，以實現魯棒的推理。在多視圖去噪過程中，多視圖擴散模型使用由重建模塊在前一時間步渲染的3D感知圖作為附加條件。遞歸擴散框架與3D感知反饋相結合，提高了整個過程的幾何一致性。實驗表明，Ouroboros3D框架在性能上優於將這兩個階段分開訓練的方法，以及在推理階段將它們結合起來的現有方法。

ViewDiff

ViewDiff 是一種利用預訓練的文本到圖像模型作為先驗知識,從真實世界數據中學習生成多視角一致的圖像的方法。它在U-Net網絡中加入了3D體積渲染和跨幀注意力層,能夠在單個去噪過程中生成3D一致的圖像。與現有方法相比,ViewDiff生成的結果具有更好的視覺質量和3D一致性。

GRM

GRM是一種大規模的重建模型,能夠在0.1秒內從稀疏視圖圖像中恢復3D資產,並且在8秒內實現生成。它是一種前饋的基於Transformer的模型,能夠高效地融合多視圖信息將輸入像素轉換為像素對齊的高斯分佈,這些高斯分佈可以反投影成為表示場景的密集3D高斯分佈集合。我們的Transformer架構和使用3D高斯分佈的方式解鎖了一種可擴展、高效的重建框架。大量實驗結果證明了我們的方法在重建質量和效率方面優於其他替代方案。我們還展示了GRM在生成任務(如文本到3D和圖像到3D)中的潛力,通過與現有的多視圖擴散模型相結合。

TripoSR

TripoSR是由Stability AI與Tripo AI合作開發的3D對象重建模型，能夠從單張圖片在不到一秒鐘的時間內生成高質量的3D模型。該模型在低推理預算下運行，無需GPU，適用於廣泛的用戶和應用場景。模型權重和源代碼已在MIT許可下發布，允許商業化、個人和研究使用。

DUSt3R

DUSt3R是一種新穎的密集和無約束立體3D重建方法，適用於任意圖像集合。它不需要事先了解相機校準或視點姿態信息，通過將成對重建問題視為點圖的迴歸，放寬了傳統投影相機模型的嚴格約束。DUSt3R提供了一種統一的單目和雙目重建方法，並在多圖像情況下提出了一種簡單有效的全局對齊策略。基於標準的Transformer編碼器和解碼器構建網絡架構，利用強大的預訓練模型。DUSt3R直接提供場景的3D模型和深度信息，並且可以從中恢復像素匹配、相對和絕對相機信息。

VisFusion

VisFusion是一個利用視頻數據進行在線3D場景重建的技術，它能夠即時地從視頻中提取和重建出三維環境。這項技術結合了計算機視覺和深度學習，為用戶提供了一個強大的工具，用於創建精確的三維模型。

ComfyUI-3D-Pack

Comfyui 3D Pack

ComfyUI-3D-Pack是一個強大的3D處理插件集合,它為ComfyUI提供了處理3D模型(網格、紋理等)的能力,集成了各種前沿3D重建和渲染算法,如3D高斯採樣、NeRF不同iable渲染等,可以實現單視角圖像快速重建3D高斯模型,並可轉換為三角網格模型,同時還提供了交互式3D可視化界面。

PRISMA

PRISMA是一個計算攝影管道,可以從任何圖像或視頻中執行多種推斷。就像光線通過稜鏡折射成不同的波長一樣,這個管道將圖像擴展成可用於3D重建或即時後期處理操作的數據。它結合了不同的算法和開源的預訓練模型,比如單目深度(MiDAS v3.1, ZoeDepth, Marigold, PatchFusion)、光流(RAFT)、分割掩模(mmdet)、相機姿態(colmap)等。結果帶存儲在與輸入文件同名的文件夾中,每個band以.png或.mp4文件的形式單獨存儲。對於視頻,在最後一步,它會嘗試執行稀疏重建,可用於NeRF(如NVidia的Instant-ngp)或高斯擴散訓練。推斷出的深度信息默認導出為可以使用LYGIA的heatmap GLSL/HLSL採樣即時解碼的熱度圖,而光流編碼為HUE(角度)和飽和度,也可以使用LYGIA的光流GLSL/HLSL採樣器即時解碼。

SIFU

SIFU是一個利用側視圖像重建高質量3D服裝虛擬人物模型的方法。它的核心創新點是提出了一種新的基於側視圖像的隱式函數,可以增強特徵提取和提高几何精度。此外,SIFU還引入了一種3D一致的紋理優化過程,可大大提升紋理質量,藉助文本到圖像的diffusion模型實現紋理編輯。SIFU擅長處理複雜姿勢和寬鬆衣物,是實際應用中理想的解決方案。

Repaint123

Repaint123可以在2分鐘內從一張圖片生成高質量、多視角一致的3D內容。它結合2D散射模型強大的圖像生成能力和漸進重繪策略的紋理對齊能力,生成高質量、視角一致的多視角圖像,並通過可視性感知的自適應重繪強度提升重繪過程中的圖像質量。生成的高質量、多視角一致圖像使得簡單的均方誤差損失函數就能實現快速的3D內容生成。

Human101

Human101是一個快速從單視圖重建人體的框架。它能夠在100秒內訓練3D高斯模型,並以60FPS以上渲染1024分辨率的圖像,而無需預先存儲每幀的高斯屬性。Human101管道如下:首先,從單視圖視頻中提取2D人體姿態。然後,利用姿態驅動3D模擬器生成匹配的3D骨架動畫。最後,基於動畫構建時間相關的3D高斯模型,進行即時渲染。

Gaussian SLAM

Gaussian SLAM能夠從RGBD數據流重建可渲染的3D場景。它是第一個能夠以照片級真實感重建現實世界場景的神經RGBD SLAM方法。通過利用3D高斯作為場景表示的主要單元，我們克服了以往方法的侷限性。我們觀察到傳統的3D高斯在單目設置下很難使用：它們無法編碼準確的幾何信息，並且很難通過單視圖順序監督進行優化。通過擴展傳統的3D高斯來編碼幾何信息，並設計一種新穎的場景表示以及增長和優化它的方法，我們提出了一種能夠重建和渲染現實世界數據集的SLAM系統，而且不會犧牲速度和效率。高斯SLAM能夠重建和以照片級真實感渲染現實世界場景。我們在常見的合成和真實世界數據集上對我們的方法進行了評估，並將其與其他最先進的SLAM方法進行了比較。最後，我們證明了我們得到的最終3D場景表示可以通過高效的高斯飛濺渲染即時渲染。

ReconFusion

ReconFusion是一種3D重建方法，利用擴散先驗在只有少量照片的情況下重建真實世界場景。它結合Neural Radiance Fields（NeRFs）和擴散先驗，能夠在新的攝像機位置超出輸入圖像集合的情況下，合成逼真的幾何和紋理。該方法通過在少量視圖和多視圖數據集上訓練擴散先驗，能夠在不受約束的區域合成逼真的幾何和紋理，同時保留觀察區域的外觀。ReconFusion在各種真實世界數據集上進行了廣泛評估，包括前向和360度場景，展示出明顯的性能改進。

NVAS3d

NVAS3d是一個用於估計包含多個未知聲源的場景中任何位置的聲音的項目，通過使用多個麥克風的音頻錄音和場景的3D幾何和材料，實現了新視角聲學合成。

AI音頻增強器

PanoHead

PanoHead是一個360°幾何感知3D全頭合成方法,能夠僅依靠野外非結構化圖像進行訓練,實現高質量視圖一致的360°全頭部圖像合成,具有不同的外觀和詳細的幾何形狀。

Chupa

Chupa是一個3D人體生成流水線,它結合了擴散模型的生成能力和神經渲染技術,可創建多樣化、逼真的3D人體。該流水線可以輕鬆地泛化到未見過的人體姿態,並呈現逼真的效果。Chupa從SMPL-X網格生成潛在空間中的多樣化高質量人體網格。

Neuralangelo by NVIDIA

Neuralangelo By NVIDIA

Neuralangelo是NVIDIA研究推出的一款利用神經網絡進行3D重建的人工智能模型，可以將2D視頻片段轉換為詳細的3D結構，生成逼真的虛擬建築、雕塑等物體。它能夠準確地提取複雜材料的紋理，包括屋頂瓦片、玻璃窗格和光滑的大理石。創意專業人員可以將這些3D對象導入設計應用程序，進一步進行編輯，用於藝術、視頻遊戲開發、機器人技術和工業數字雙胞胎等領域。Neuralangelo的3D重建能力將對創作者產生巨大的幫助，幫助他們在數字世界中重新創建真實世界。該工具最終將使開發人員能夠將詳細的對象（無論是小雕塑還是巨大的建築物）導入到虛擬環境中，用於視頻遊戲或工業數字雙胞胎等應用。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase