3D場景

# 3D場景

SCENIC model

SCENIC是一個文本條件的場景交互模型，能夠適應具有不同地形的複雜場景，並支持使用自然語言進行用戶指定的語義控制。該模型通過用戶指定的軌跡作為子目標和文本提示，來導航3D場景。SCENIC利用層次化推理場景的方法，結合運動與文本之間的幀對齊，實現不同運動風格之間的無縫過渡。該技術的重要性在於其能夠生成符合真實物理規則和用戶指令的角色導航動作，對於虛擬現實、增強現實以及遊戲開發等領域具有重要意義。

CHOIS

Controllable Human-Object Interaction Synthesis (CHOIS) 是一種先進的技術，它能夠根據語言描述、初始物體和人類狀態以及稀疏物體路徑點來同時生成物體運動和人類運動。這項技術對於模擬真實的人類行為至關重要，尤其在需要精確手-物體接觸和由地面支撐的適當接觸的場景中。CHOIS通過引入物體幾何損失作為額外的監督信息，以及在訓練擴散模型的採樣過程中設計指導項來強制執行接觸約束，從而提高了生成物體運動與輸入物體路徑點之間的匹配度，並確保了交互的真實性。

DimensionX

DimensionX是一個基於視頻擴散模型的3D和4D場景生成技術，它能夠從單張圖片中創建出具有可控視角和動態變化的三維和四維場景。這項技術的主要優點包括高度的靈活性和逼真度，能夠根據用戶提供的提示詞生成各種風格和主題的場景。DimensionX的背景信息顯示，它是由一群研究人員共同開發的，旨在推動圖像生成技術的發展。目前，該技術是免費提供給研究和開發社區使用的。

VividDream

VividDream是一項創新技術，能夠從單一輸入圖像或文本提示生成具有環境動態的可探索4D場景。它首先將輸入圖像擴展為靜態3D點雲，然後使用視頻擴散模型生成動畫視頻集合，並通過優化4D場景表示來實現一致性運動和沉浸式場景探索。這項技術為生成基於多樣真實圖像和文本提示的引人入勝的4D體驗提供了可能。

Level of Gaussians (LoG)

Level Of Gaussians (LoG)

Level of Gaussians (LoG) 是一種用於高效渲染三維場景的新技術，它通過樹狀結構存儲高斯基元，並通過漸進式訓練策略從圖像中端到端重建，有效克服局部最小值，實現即時渲染數百萬平方千米的區域，是渲染大規模場景的重要進步。

Lixel CyberColor

Lixel CyberColor

Lixel CyberColor（LCC），由XGRIDS公司研發的先進技術產品，為3D場景的創建帶來革命性變化。LCC能自動生成電影級效果的無限大3D場景，使用Multi-SLAM和高斯濺射技術。其核心優勢在於精確捕捉並復現真實細節，為虛擬現實、遊戲開發、電影製作等領域帶來真實性體驗。 XGRIDS作為一套集成軟硬件解決方案，展現出在微米到千米級別的高精度3D重建和智能空間計算方面的強大能力。採用Multi-SLAM算法和優化的3DGS技術，自動創建超逼真大型3D模型，沉浸式體驗。優化算法實現逼真渲染效果，通過數據壓縮技術將模型大小減小90%，LiDAR集成技術實現釐米級模型精度，提供AI驅動的動態物體去除算法。推出LCC插件和SDK，在Unity、UE、Web、移動平臺使用，為3D內容提供強大支持。

BlockFusion

BlockFusion是一種基於擴散的模型，可以生成3D場景，並無縫地將新的塊整合到場景中。它通過對隨機裁剪自完整3D場景網格的3D塊數據集進行訓練。通過逐塊擬合，所有訓練塊都被轉換為混合神經場：其中包含幾何特徵的三面體，然後是用於解碼有符號距離值的多層感知器（MLP）。變分自動編碼器用於將三面體壓縮到潛在的三面體空間，對其進行去噪擴散處理。擴散應用於潛在表示，可以實現高質量和多樣化的3D場景生成。在生成過程中擴展場景時，只需附加空塊以與當前場景重疊，並外推現有的潛在三面體以填充新塊。外推是通過在去噪迭代過程中使用來自重疊三面體的特徵樣本來調節生成過程完成的。潛在三面體外推產生語義和幾何上有意義的過渡，與現有場景和諧地融合。使用2D佈局調節機制來控制場景元素的放置和排列。實驗結果表明，BlockFusion能夠生成多樣化、幾何一致且質量高的室內外大型3D場景。

Deblurring 3D Gaussian Splatting

Deblurring 3D Gaussian Splatting

3Deblurring 3D Gaussian Splatting是一種基於最新提出的光柵化方法、3D高斯和光柵化的新型神經場去模糊框架。通過使用小型多層感知器（MLP），該產品可以在即時渲染的同時，從模糊圖像中重建細節清晰的圖像。該產品通過在訓練期間使用K-最近鄰（KNN）算法添加額外的點來使點雲更加密集，並根據相對深度對3D高斯進行鬆散修剪，以保留更多的3D高斯。經過多項實驗，證實了該產品在去模糊方面的有效性。

Avataar

Avataar是一個利用生成式AI技術為用戶提供沉浸式可視化內容創作能力的平臺。它能夠幫助用戶無需代碼快速製作3D空間場景、虛擬角色以及交互式視頻。Avataar使創作者能夠更高效地講述故事,為消費者帶來更好的可視化體驗。該平臺提供基於網頁的零代碼解決方案,用戶可以使用Google、Apple或郵箱賬號快速登錄。Avataar擁有強大的AI生成能力,助力用戶進行視覺化創作,大大提升工作效率。

Instruct-NeRF2NeRF

Instruct NeRF2NeRF

Instruct-NeRF2NeRF是一款用於編輯NeRF場景的指令式編輯器。它使用圖像條件擴散模型（InstructPix2Pix）逐步編輯輸入圖像，同時優化底層場景，從而得到一個優化的3D場景，該場景符合編輯指令。我們證明了我們的方法能夠編輯大規模的現實世界場景，並且能夠比之前的工作實現更真實、更有針對性的編輯。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase