NeRF

# NeRF

SyncAnimation

SyncAnimation 是一種創新的音頻驅動技術，能夠即時生成高度逼真的說話頭像和上半身動作。它通過結合音頻與姿態、表情的同步技術，解決了傳統方法在即時性和細節表現上的不足。該技術主要面向需要高質量即時動畫生成的應用場景，如虛擬主播、在線教育、遠程會議等，具有重要的應用價值。目前尚未明確其價格和具體市場定位。

MimicTalk

MimicTalk是一種基於神經輻射場（NeRF）的個性化三維說話面部生成技術，它能夠在幾分鐘內模仿特定身份的靜態外觀和動態說話風格。這項技術的主要優點包括高效率、高質量的視頻生成以及對目標人物說話風格的精確模仿。MimicTalk通過一個通用的3D面部生成模型作為基礎，並通過靜態-動態混合適應流程來學習個性化的靜態外觀和麵部動態，同時提出了一種上下文風格化的音頻到運動（ICS-A2M）模型，以生成與目標人物說話風格相匹配的面部運動。MimicTalk的技術背景是基於深度學習和計算機視覺領域的最新進展，特別是在人臉合成和動畫生成方面。目前，該技術是免費提供給研究和開發社區的。

書生·天際LandMark

書生·天際landmark

書生·天際LandMark是一個基於NeRF技術的實景三維大模型，它實現了100平方公里的4K高清訓練，具備即時渲染和自由編輯的能力。這項技術代表了城市級三維建模和渲染的新高度，具有極高的訓練和渲染效率，為城市規劃、建築設計和虛擬現實等領域提供了強大的工具。

IllumiNeRF

IllumiNeRF是一種3D重光照技術，它通過使用一系列在未知光照條件下拍攝的物體圖像，恢復3D表示，以便在目標照明下從新視角渲染。該技術避免了基於逆向渲染的傳統方法，這些方法通常涉及通過可微分的蒙特卡洛渲染進行優化，這不僅脆弱而且計算成本高昂。IllumiNeRF採用更簡單的方法，首先使用圖像擴散模型對每個輸入圖像進行重光照，然後使用這些重光照圖像重建Neural Radiance Field (NeRF)，從而在目標照明下渲染新視圖。這種方法在多個重光照基準測試中取得了出人意料的競爭性能和最先進的結果。

nerfstudio

Nerfstudio是一個開源的神經輻射場（NeRF）開發框架，它提供了簡單易用的API，支持模塊化的NeRF構建和訓練。Nerfstudio幫助用戶更輕鬆地理解和探索NeRF技術，並提供了教程、文檔和更多學習資源。歡迎用戶貢獻新的NeRF模型和數據集。Nerfstudio的主要功能包括模型訓練、數據處理、可視化等。

開發與工具

SIGNeRF

SIGNeRF是一種用於快速和可控的NeRF場景編輯以及場景集成對象生成的新方法。它引入了一種新的生成更新策略，確保在編輯圖像時保持3D一致性，而無需進行迭代優化。SIGNeRF利用了ControlNet的深度條件圖像擴散模型的優勢，通過幾個簡單的步驟在單個前向傳遞中編輯現有的NeRF場景。它可以生成新的對象到現有的NeRF場景中，也可以編輯已存在的對象，從而實現對場景的精確控制。

DL3DV-10K

DL3DV-10K是一個包含超過10000個高質量視頻的大規模實景數據集,每個視頻都經過人工標註場景關鍵點和複雜程度,並提供相機姿態、NeRF估計深度、點雲和3D網格等。該數據集可用於通用NeRF研究、場景一致性跟蹤、視覺語言模型等計算機視覺研究。

ZeroNVS

ZeroNVS 是一款用於從單張真實圖像進行零樣本 360 度全景合成的工具。它提供了 3D SDS 蒸餾代碼、評估代碼和訓練好的模型。用戶可以使用該工具進行自己的 NeRF 模型蒸餾和評估，並且可以在各種不同的數據集上進行實驗。ZeroNVS 具有高質量的合成效果，並且支持自定義的圖像數據。該工具主要用於虛擬現實、增強現實和全景視頻製作等領域。

Instruct-NeRF2NeRF

Instruct NeRF2NeRF

Instruct-NeRF2NeRF是一款用於編輯NeRF場景的指令式編輯器。它使用圖像條件擴散模型（InstructPix2Pix）逐步編輯輸入圖像，同時優化底層場景，從而得到一個優化的3D場景，該場景符合編輯指令。我們證明了我們的方法能夠編輯大規模的現實世界場景，並且能夠比之前的工作實現更真實、更有針對性的編輯。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase