即時渲染

# 即時渲染

GaussianCity

GaussianCity是一個專注於高效生成無邊界3D城市的框架，基於3D高斯繪製技術。該技術通過緊湊的3D場景表示和空間感知的高斯屬性解碼器，解決了傳統方法在生成大規模城市場景時面臨的內存和計算瓶頸。其主要優點是能夠在單次前向傳遞中快速生成大規模3D城市，顯著優於現有技術。該產品由南洋理工大學S-Lab團隊開發，相關論文發表於CVPR 2025，代碼和模型已開源，適用於需要高效生成3D城市環境的研究人員和開發者。

CAP4D

CAP4D是一種利用可變形多視圖擴散模型（Morphable Multi-View Diffusion Models）來創建4D人像化身的技術。它能夠從任意數量的參考圖像生成不同視角和表情的圖像，並將其適配到一個4D化身上，該化身可以通過3DMM控制並即時渲染。這項技術的主要優點包括高度逼真的圖像生成、多視角的適應性以及即時渲染的能力。CAP4D的技術背景是基於深度學習和圖像生成領域的最新進展，尤其是在擴散模型和3D面部建模方面。由於其高質量的圖像生成和即時渲染能力，CAP4D在娛樂、遊戲開發、虛擬現實等領域具有廣泛的應用前景。目前，該技術是免費提供代碼的，但具體的商業化應用可能需要進一步的授權和定價。

Long Volumetric Video

Long Volumetric Video

Long Volumetric Video是一種用於重建多視角RGB視頻中的長體素視頻的新技術。該技術通過Temporal Gaussian Hierarchy這種新穎的4D表示方法，緊湊地模擬長體素視頻，解決了傳統動態視圖合成方法在處理長視頻時內存佔用大、渲染速度慢的問題。這項技術的主要優點包括訓練成本低、渲染速度快和存儲使用少，是首個能夠高效處理分鐘級體素視頻數據同時保持高質量渲染的技術。

GaussianSpeech

GaussianSpeech是一種新穎的方法，它能夠從語音信號中合成高保真度的動畫序列，創建逼真、個性化的3D人頭化身。該技術通過結合語音信號與3D高斯繪製技術，捕捉人類頭部表情和細節動作，包括皮膚皺褶和更細微的面部運動。GaussianSpeech的主要優點包括即時渲染速度、自然的視覺動態效果，以及能夠呈現多樣化的面部表情和風格。該技術背後是大規模多視角音頻-視覺序列數據集的創建，以及音頻條件變換模型的開發，這些模型能夠直接從音頻輸入中提取唇部和表情特徵。

LTXV

LTXV是Lightricks推出的一個即時AI視頻生成開源模型，它代表了視頻生成技術的最新發展。LTXV能夠提供可擴展的長視頻製作能力，優化了GPU和TPU系統，大幅減少了視頻生成時間，同時保持了高視覺質量。LTXV的獨特之處在於其幀到幀學習技術，確保了幀之間的連貫性，消除了閃爍和場景內的不一致問題。這一技術對於視頻製作行業來說是一個巨大的進步，因為它不僅提高了效率，還提升了視頻內容的質量。

URAvatar

URAvatar是一種新型的頭像生成技術，它能夠通過手機掃描在未知光照條件下創建出逼真的、可重新照明的頭部頭像。與傳統的通過逆向渲染估計參數反射率參數的方法不同，URAvatar直接模擬學習輻射傳遞，將全局光照傳輸有效地整合到即時渲染中。這項技術的重要性在於它能夠從單一環境的手機掃描中重建出在多種環境中看起來都逼真的頭部模型，並且能夠即時驅動和重新照明。

DreamWaltz-G

DreamWaltz-G是一個創新的框架，用於從文本驅動生成3D頭像和表達性的全身動畫。它的核心是骨架引導的評分蒸餾和混合3D高斯頭像表示。該框架通過整合3D人類模板的骨架控制到2D擴散模型中，提高了視角和人體姿勢的一致性，從而生成高質量的頭像，解決了多重面孔、額外肢體和模糊等問題。此外，混合3D高斯頭像表示通過結合神經隱式場和參數化3D網格，實現了即時渲染、穩定的SDS優化和富有表現力的動畫。DreamWaltz-G在生成和動畫3D頭像方面非常有效，無論是視覺質量還是動畫表現力都超越了現有方法。此外，該框架還支持多種應用，包括人類視頻重演和多主題場景組合。

GGHead

GGHead是一種基於3D高斯散射表示的3D生成對抗網絡（GAN），用於從2D圖像集合中學習3D頭部先驗。該技術通過利用模板頭部網格的UV空間的規則性，預測一組3D高斯屬性，從而簡化了預測過程。GGHead的主要優點包括高效率、高分辨率生成、全3D一致性，並且能夠實現即時渲染。它通過一種新穎的總變差損失來提高生成的3D頭部的幾何保真度，確保鄰近渲染像素來自UV空間中相近的高斯。

DualGS

Robust Dual Gaussian Splatting (DualGS) 是一種新型的基於高斯的體積視頻表示方法，它通過優化關節高斯和皮膚高斯來捕捉複雜的人體表演，並實現魯棒的跟蹤和高保真渲染。該技術在SIGGRAPH Asia 2024上展示，能夠實現在低端移動設備和VR頭顯上的即時渲染，提供用戶友好和互動的體驗。DualGS通過混合壓縮策略，實現了高達120倍的壓縮比，使得體積視頻的存儲和傳輸更加高效。

書生·天際LandMark

書生·天際landmark

書生·天際LandMark是一個基於NeRF技術的實景三維大模型，它實現了100平方公里的4K高清訓練，具備即時渲染和自由編輯的能力。這項技術代表了城市級三維建模和渲染的新高度，具有極高的訓練和渲染效率，為城市規劃、建築設計和虛擬現實等領域提供了強大的工具。

XHand

XHand是由浙江大學開發的一個即時生成高細節表達性手勢頭像的模型。它通過多視角視頻創建，並利用MANO姿勢參數生成高細節的網格和渲染圖，實現了在不同姿勢下的即時渲染。XHand在圖像真實感和渲染質量上具有顯著優勢，特別是在擴展現實和遊戲領域，能夠即時渲染出逼真的手部圖像。

Hierarchical 3D Gaussian

Hierarchical 3D Gaussian

這項研究提出了一種新的分層3D高斯表示方法，用於即時渲染非常大的數據集。該方法通過3D高斯splatting技術提供了優秀的視覺質量、快速的訓練和即時渲染能力。通過分層結構和有效的細節層次(Level-of-Detail, LOD)解決方案，可以高效渲染遠處內容，並在不同層次之間實現平滑過渡。該技術能夠適應可用資源，通過分而治之的方法訓練大型場景，並將其整合到一個可以進一步優化以提高高斯合併到中間節點時的視覺質量的層級結構中。

WonderWorld

WonderWorld是一個創新的3D場景擴展框架，允許用戶基於單張輸入圖片和用戶指定的文本探索和塑造虛擬環境。它通過快速高斯體素和引導擴散的深度估計方法，顯著減少了計算時間，生成幾何一致的擴展，使3D場景的生成時間少於10秒，支持即時用戶交互和探索。這為虛擬現實、遊戲和創意設計等領域提供了快速生成和導航沉浸式虛擬世界的可能性。

E3Gen

E3Gen是一種新型的數字頭像生成方法，能夠即時生成高保真度的頭像，具有詳細的衣物褶皺，並支持多種視角和全身姿勢的全面控制，以及屬性轉移和局部編輯。它通過將3D高斯編碼到結構化的2D UV空間中，解決了3D高斯與當前生成流程不兼容的問題，並探索了在涉及多個主體的訓練中3D高斯的表現力動畫。

Level of Gaussians (LoG)

Level Of Gaussians (LoG)

Level of Gaussians (LoG) 是一種用於高效渲染三維場景的新技術，它通過樹狀結構存儲高斯基元，並通過漸進式訓練策略從圖像中端到端重建，有效克服局部最小值，實現即時渲染數百萬平方千米的區域，是渲染大規模場景的重要進步。

museclip.ai

Museclip是一個基於3D模型的即時人物設計平臺,擁有智能編輯、魔法畫筆和文字提示等功能,可以在幾秒內將3D人物基礎模型轉換成逼真的角色形象,大幅提高人物設計的效率。它的主要優勢有:即時渲染技術,快速定製化,智能簡潔的設計流程,為用戶提供極大的創作自由度。

GauHuman

GauHuman是一個基於高斯擴散的3D人體模型，它能在短時間內（1-2分鐘）完成訓練，並提供即時渲染（最高達189 FPS），與現有基於NeRF的隱式表示建模框架相比，後者需要數小時訓練和每幀數秒渲染。GauHuman在規範空間對高斯擴散進行編碼，並利用線性混合皮膚（LBS）將3D高斯從規範空間轉換到姿態空間，在此過程中設計了有效的姿態和LBS細化模塊，以微不足道的計算成本學習3D人體的細節。此外，GauHuman還通過3D人體先驗初始化和修剪3D高斯，並通過KL散度引導進行拆分/克隆，以及進一步加速的新型合併操作，從而實現快速優化。

BakedAvatar

BakedAvatar是一種用於即時神經頭像合成的全新表示，可部署在標準多邊形光柵化流水線中。該方法從學習到的頭部等值面提取可變形的多層網格，並計算可烘焙到靜態紋理中的表情、姿勢和視角相關外觀，從而為即時4D頭像合成提供支持。我們提出了一個三階段的神經頭像合成流水線，包括學習連續變形、流形和輻射場，提取分層網格和紋理，以及通過微分光柵化來微調紋理細節。實驗結果表明，我們的表示產生了與其他最先進方法相當的綜合結果，並顯著減少了所需的推理時間。我們進一步展示了從單眼視頻中產生的各種頭像合成結果，包括視圖合成、面部重現、表情編輯和姿勢編輯，所有這些都以交互式幀率進行。

Deblurring 3D Gaussian Splatting

Deblurring 3D Gaussian Splatting

3Deblurring 3D Gaussian Splatting是一種基於最新提出的光柵化方法、3D高斯和光柵化的新型神經場去模糊框架。通過使用小型多層感知器（MLP），該產品可以在即時渲染的同時，從模糊圖像中重建細節清晰的圖像。該產品通過在訓練期間使用K-最近鄰（KNN）算法添加額外的點來使點雲更加密集，並根據相對深度對3D高斯進行鬆散修剪，以保留更多的3D高斯。經過多項實驗，證實了該產品在去模糊方面的有效性。

Human101

Human101是一個快速從單視圖重建人體的框架。它能夠在100秒內訓練3D高斯模型,並以60FPS以上渲染1024分辨率的圖像,而無需預先存儲每幀的高斯屬性。Human101管道如下:首先,從單視圖視頻中提取2D人體姿態。然後,利用姿態驅動3D模擬器生成匹配的3D骨架動畫。最後,基於動畫構建時間相關的3D高斯模型,進行即時渲染。

Cyanpuppets

Cyanpuppets是一個專注於2D視頻生成3D動作模型的AI算法團隊。他們的無標記動作捕捉系統通過2個RGB攝像頭完成超過208個關鍵點的捕捉，支持UE5和UNITY 2021版本，延遲僅為0.1秒。Cyanpuppets支持大多數骨骼標準，其技術廣泛應用於遊戲、電影和其他娛樂領域。

Sloyd

Sloyd是一個快速生成3D模型的平臺。選擇一個生成器，進行微調，即可完成。可以通過即時預覽來生成模型。Sloyd提供不斷擴展的生成器庫，快速定製模型，可用於即時渲染和多種級別的細節。生成的模型可以根據需要進行定製，並且已經進行了UV展開和優化，方便進行貼圖和使用。Sloyd適用於各種風格的模型，提供無限的變化，並且支持即時生成。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase