虛擬現實

# 虛擬現實

Phantom

Phantom 是一種先進的視頻生成技術，通過跨模態對齊實現主體一致性視頻生成。它能夠根據單張或多張參考圖像生成生動的視頻內容，同時嚴格保留主體的身份特徵。該技術在內容創作、虛擬現實和廣告等領域具有重要應用價值，能夠為創作者提供高效且富有創意的視頻生成解決方案。Phantom 的主要優點包括高度的主體一致性、豐富的視頻細節以及強大的多模態交互能力。

Pippo

Pippo 是由 Meta Reality Labs 和多所高校合作開發的生成模型，能夠從單張普通照片生成高分辨率的多人視角視頻。該技術的核心優勢在於無需額外輸入（如參數化模型或相機參數），即可生成高質量的 1K 分辨率視頻。它基於多視角擴散變換器架構，具有廣泛的應用前景，如虛擬現實、影視製作等。Pippo 的代碼已開源，但不包含預訓練權重，用戶需要自行訓練模型。

GameFactory

GameFactory 是一個創新的通用世界模型，專注於從少量的《我的世界》遊戲視頻數據中學習，並利用預訓練視頻擴散模型的先驗知識來生成新的遊戲內容。該技術的核心優勢在於其開放領域的生成能力，能夠根據用戶輸入的文本提示和操作指令生成多樣化的遊戲場景和互動體驗。它不僅展示了強大的場景生成能力，還通過多階段訓練策略和可插拔的動作控制模塊，實現了高質量的交互式視頻生成。該技術在遊戲開發、虛擬現實和創意內容生成等領域具有廣闊的應用前景，目前尚未明確其價格和商業化定位。

SCENIC model

SCENIC是一個文本條件的場景交互模型，能夠適應具有不同地形的複雜場景，並支持使用自然語言進行用戶指定的語義控制。該模型通過用戶指定的軌跡作為子目標和文本提示，來導航3D場景。SCENIC利用層次化推理場景的方法，結合運動與文本之間的幀對齊，實現不同運動風格之間的無縫過渡。該技術的重要性在於其能夠生成符合真實物理規則和用戶指令的角色導航動作，對於虛擬現實、增強現實以及遊戲開發等領域具有重要意義。

GenEx

GenEx是一個AI模型，它能夠從單張圖片創建一個完全可探索的360°3D世界。用戶可以互動地探索這個生成的世界。GenEx在想象空間中推進具身AI，並有潛力將這些能力擴展到現實世界的探索。

SOLAMI

SOLAMI是一個端到端的社交視覺-語言-動作(VLA)建模框架，用於與3D自主角色進行沉浸式交互。該框架通過綜合三個主要方面構建3D自主角色：社交VLA架構、交互式多模態數據和沉浸式VR界面。SOLAMI的主要優點包括更精確和自然的字符響應（包括語音和動作），與用戶期望一致，並且延遲更低。該技術的重要性在於它為3D自主角色提供了類似人類的社交智能，使其能夠感知、理解和與人類進行交互，這是人工智能領域中的一個開放且基礎的問題。

CAT4D

CAT4D是一個利用多視圖視頻擴散模型從單目視頻中生成4D場景的技術。它能夠將輸入的單目視頻轉換成多視角視頻，並重建動態的3D場景。這項技術的重要性在於它能夠從單一視角的視頻資料中提取並重建出三維空間和時間的完整信息，為虛擬現實、增強現實以及三維建模等領域提供了強大的技術支持。產品背景信息顯示，CAT4D由Google DeepMind、Columbia University和UC San Diego的研究人員共同開發，是一個前沿的科研成果轉化為實際應用的案例。

The Matrix

The Matrix是一個先鋒項目，旨在通過AI技術打造一個全沉浸式、交互式的數字宇宙，模糊現實與幻覺之間的界限。該項目通過提供幀級精度的用戶交互、AAA級視覺效果以及無限的生成能力，突破了現有視頻模型的侷限，為用戶帶來無盡的探索體驗。The Matrix由阿里巴巴集團、香港大學、滑鐵盧大學和Vector Institute共同研發，代表了世界模擬技術的新高度。

TANGO Model

TANGO是一個基於層次化音頻-運動嵌入和擴散插值的共語手勢視頻重現技術。它利用先進的人工智能算法，將語音信號轉換成相應的手勢動作，實現視頻中人物手勢的自然重現。這項技術在視頻製作、虛擬現實、增強現實等領域具有廣泛的應用前景，能夠提升視頻內容的互動性和真實感。TANGO由東京大學和CyberAgent AI Lab聯合開發，代表了當前人工智能在手勢識別和動作生成領域的前沿水平。

Meta Quest 3S

Meta Quest 3S是一款混合現實頭戴設備，提供沉浸式遊戲體驗、健身和娛樂功能，支持Facebook、Instagram和WhatsApp等應用且支持“Hey Meta”喚醒詞來調用 Meta AI。它具有高分辨率顯示、輕巧設計、創新的控制器設計和增強的觸覺反饋。Meta Quest 3S旨在為用戶帶來前所未有的虛擬體驗，同時保持舒適的佩戴體驗和高性能的圖形處理能力。

GVHMR

GVHMR是一種創新的人體運動恢復技術，它通過重力視角座標系統來解決從單目視頻中恢復世界定位的人體運動的問題。該技術能夠減少學習圖像-姿態映射的歧義，並且避免了自迴歸方法中連續圖像的累積誤差。GVHMR在野外基準測試中表現出色，不僅在準確性和速度上超越了現有的最先進技術，而且其訓練過程和模型權重對公眾開放，具有很高的科研和實用價值。

World Labs

World Labs 是一家專注於空間智能的公司，致力於構建大型世界模型（Large World Models），以感知、生成和與3D世界進行互動。公司由AI領域的知名科學家、教授、學者和行業領導者共同創立，包括斯坦福大學的Fei-Fei Li教授、密歇根大學的Justin Johnson教授等。他們通過創新的技術和方法，如神經輻射場（NeRF）技術，推動了3D場景重建和新視角合成的發展。World Labs 得到了包括Marc Benioff、Jim Breyer等知名投資者的支持，其技術在AI領域具有重要的應用價值和商業潛力。

OmniRe

OmniRe 是一種用於高效重建高保真動態城市場景的全面方法，它通過設備日誌來實現。該技術通過構建基於高斯表示的動態神經場景圖，以及構建多個局部規範空間來模擬包括車輛、行人和騎行者在內的各種動態行為者，從而實現了對場景中不同對象的全面重建。OmniRe 允許我們全面重建場景中存在的不同對象，並隨後實現所有參與者即時參與的重建場景的模擬。在 Waymo 數據集上的廣泛評估表明，OmniRe 在定量和定性方面都大幅超越了先前的最先進方法。

avp_teleoperate

Avp Teleoperate

這是一個開源項目，用於實現人形機器人Unitree H1_2的遙控操作。它利用了Apple Vision Pro技術，允許用戶通過虛擬現實環境來控制機器人。該項目在Ubuntu 20.04和Ubuntu 22.04上進行了測試，並且提供了詳細的安裝和配置指南。該技術的主要優點包括能夠提供沉浸式的遙控體驗，並且支持在模擬環境中進行測試，為機器人遙控領域提供了新的解決方案。

ControlMM

ControlMM是一個全身運動生成框架，具有即插即用的多模態控制功能，能夠在文本到運動(Text-to-Motion)、語音到手勢(Speech-to-Gesture)和音樂到舞蹈(Music-to-Dance)等多個領域中生成穩健的運動。該模型在可控性、序列性和運動合理性方面具有明顯優勢，為人工智能領域提供了一種新的運動生成解決方案。

HoloDreamer

HoloDreamer是一個文本驅動的3D場景生成框架，能夠生成沉浸式且視角一致的全封閉3D場景。它由兩個基本模塊組成：風格化等矩形全景生成和增強兩階段全景重建。該框架首先生成高清晰度的全景圖作為完整3D場景的整體初始化，然後利用3D高斯散射（3D-GS）技術快速重建3D場景，從而實現視角一致和完全封閉的3D場景生成。HoloDreamer的主要優點包括高視覺一致性、和諧性以及重建質量和渲染的魯棒性。

Aiuni

Aiuni是一個提供3D虛擬世界體驗的平臺，用戶可以在這裡創建和探索個性化的3D模型，享受沉浸式的宇宙探索之旅。Aiuni以其創新的3D技術、豐富的互動性和高度的個性化定製，為用戶提供了一個全新的虛擬體驗空間。

EgoGaussian

EgoGaussian是一項先進的3D場景重建與動態物體追蹤技術，它能夠僅通過RGB第一人稱視角輸入，同時重建3D場景並動態追蹤物體的運動。這項技術利用高斯散射的獨特離散特性，從背景中分割出動態交互，並通過片段級別的在線學習流程，利用人類活動的動態特性，以時間順序重建場景的演變並追蹤剛體物體的運動。EgoGaussian在野外視頻的挑戰中超越了先前的NeRF和動態高斯方法，並且在重建模型的質量上也表現出色。

WonderWorld

WonderWorld是一個創新的3D場景擴展框架，允許用戶基於單張輸入圖片和用戶指定的文本探索和塑造虛擬環境。它通過快速高斯體素和引導擴散的深度估計方法，顯著減少了計算時間，生成幾何一致的擴展，使3D場景的生成時間少於10秒，支持即時用戶交互和探索。這為虛擬現實、遊戲和創意設計等領域提供了快速生成和導航沉浸式虛擬世界的可能性。

Unique3D

Unique3D是由清華大學團隊開發的一項技術，能夠從單張圖片中生成高保真度的紋理3D網格模型。這項技術在圖像處理和3D建模領域具有重要意義，它使得用戶能夠快速將2D圖像轉化為3D模型，為遊戲開發、動畫製作、虛擬現實等領域提供了強大的技術支持。

Rokoko

Rokoko是一款基於傳感器的動作捕捉系統，為3D數字創作者提供高質量的身體、手指和麵部動畫解決方案。它具有直觀易用的界面和負擔得起的價格，可幫助用戶輕鬆實現逼真的角色動畫。

Immerse

Immerse是一款由專家設計的虛擬現實語言沉浸式學習平臺，通過提供語言課程和AI輔助練習，幫助成年人流利地學習新語言。它的主要優點包括：通過虛擬現實技術提供身臨其境的語言學習體驗；結合AI技術提供個性化的語言練習；專業教師指導和即時反饋等。Immerse的定位是幫助成年人實現流利地說新語言的目標。

PhysDreamer

PhysDreamer是一個基於物理的方法，它通過利用視頻生成模型學習到的對象動力學先驗，為靜態3D對象賦予交互式動力學。這種方法允許在缺乏真實物體物理屬性數據的情況下，模擬出對新穎交互（如外力或代理操作）的真實反應。PhysDreamer通過用戶研究評估合成交互的真實性，推動了更吸引人和真實的虛擬體驗的發展。

Lixel CyberColor

Lixel CyberColor

Lixel CyberColor（LCC），由XGRIDS公司研發的先進技術產品，為3D場景的創建帶來革命性變化。LCC能自動生成電影級效果的無限大3D場景，使用Multi-SLAM和高斯濺射技術。其核心優勢在於精確捕捉並復現真實細節，為虛擬現實、遊戲開發、電影製作等領域帶來真實性體驗。 XGRIDS作為一套集成軟硬件解決方案，展現出在微米到千米級別的高精度3D重建和智能空間計算方面的強大能力。採用Multi-SLAM算法和優化的3DGS技術，自動創建超逼真大型3D模型，沉浸式體驗。優化算法實現逼真渲染效果，通過數據壓縮技術將模型大小減小90%，LiDAR集成技術實現釐米級模型精度，提供AI驅動的動態物體去除算法。推出LCC插件和SDK，在Unity、UE、Web、移動平臺使用，為3D內容提供強大支持。

Champ

Champ 是一種用於生成 3D 物體形狀的生成模型，它結合了隱函數和卷積神經網絡，以生成高質量、多樣化和逼真的 3D 形狀。它可以生成各種類別的形狀，包括動物、車輛和傢俱。

VIGGLE

VIGGLE是一款基於JST-1視頻-3D基礎模型的可控視頻生成工具。它可以讓任何角色按照您的要求移動。JST-1是第一個具有實際物理理解能力的視頻-3D基礎模型。VIGGLE的優勢在於其強大的視頻生成和控制能力,可以根據用戶需求生成各種動作和情節的視頻。它定位於視頻創作者、動畫師和內容創作者等專業人群,幫助他們更高效地製作視頻內容。目前VIGGLE處於測試階段,未來可能會推出付費訂閱版本。

Captury

Captury提供先進的無標記運動捕捉解決方案,可精準可靠地跟蹤多個演員同時進行的全身動作、手指移動和麵部表情。我們的解決方案旨在提高運動捕捉的效率,同時降低所涉及的時間和成本。Captury可應用於3D遊戲開發、虛擬效果/電影/廣告領域、虛擬現實、即時虛擬/基於位置的娛樂、遊戲內玩家跟蹤以及生命科學等領域。主要產品包括即時處理CapturyLive、CapturyInGame、CapturyFace,以及後期處理CapturyStudio和CapturyDome等。

Depthify.ai

Depthify.ai是一個工具，可以將RGB圖像轉換為與Apple Vision Pro和Meta Quest兼容的各種空間格式。通過轉換RGB圖像為空間照片，可以為各種計算機視覺和3D建模應用提供支持。它可以生成深度圖、立體圖像和HEIC文件，可在Apple Vision Pro上使用。

Wooorld

Wooorld是一個虛擬現實探索和社交平臺。用戶可以在虛擬世界中與朋友們一起遊覽地球上的數百個城市、地標和自然景觀。Wooorld提供了極其真實和細緻的3D地圖,用戶只需要用雙手抓取地圖就可以平移和縮放。用戶還可以進行語音交流、使用面部和身體動態捕捉的3D頭像,玩遊戲和使用創意工具進行協作。這是一個獨特的社交體驗。

UltrAvatar

UltrAvatar是一款逼真可動的3D頭像生成模型，旨在縮小虛擬與現實世界體驗之間的差距。它採用Score Distillation Sampling (SDS) loss和可微分渲染器以及文本條件來引導擴散模型生成3D頭像。與現有作品相比，UltrAvatar通過增強幾何保真度和優越的物理渲染紋理質量，提出了一種新穎的3D頭像生成方法。它通過擴散色彩提取模型和真實性引導紋理擴散模型，去除不需要的光照效果，呈現真實的擴散顏色，使生成的頭像能夠在各種光照條件下呈現。我們在實驗證明了該方法的有效性和魯棒性，在實驗中大幅優於現有最先進的方法。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase