

Audio To Photoreal Embodiment
簡介 :
Audio to Photoreal Embodiment是一個生成全身照片級人形化身的框架。它根據對話動態生成面部、身體和手部的多種姿勢動作。其方法的關鍵在於通過將向量量化的樣本多樣性與擴散所獲得的高頻細節相結合,生成更具動態和表現力的動作。通過高度逼真的人形化身可視化生成的動作,能夠表達出姿勢中的重要細微差別(例如嘲笑和傲慢)。為了促進這一研究方向,我們引入了一種首次亮相的多視圖對話數據集,可以進行照片級重建。實驗證明,我們的模型生成了合適且多樣化的動作,表現優於擴散和僅向量量化的方法。此外,我們的感知評估突出了在準確評估對話姿勢中的微妙動作細節方面,照片級真實感(與網格)的重要性。代碼和數據集可在線獲取。
需求人群 :
適用於生成全身照片級人形化身的框架
使用場景
語音聊天應用中生成逼真的人形化身
虛擬現實環境中生成逼真的人形化身
在線教育平臺中生成逼真的人形化身
產品特色
根據語音音頻生成全身人形化身的多種姿勢動作
使用向量量化和擴散技術生成動態、表現力強的動作
可視化生成的動作使用高度逼真的人形化身
精選AI產品推薦

Sora
Sora是一個基於大規模訓練的文本控制視頻生成擴散模型。它能夠生成長達1分鐘的高清視頻,涵蓋廣泛的視覺數據類型和分辨率。Sora通過在視頻和圖像的壓縮潛在空間中訓練,將其分解為時空位置補丁,實現了可擴展的視頻生成。Sora還展現出一些模擬物理世界和數字世界的能力,如三維一致性和交互,揭示了繼續擴大視頻生成模型規模來發展高能力模擬器的前景。
AI視頻生成
17.2M

Animate Anyone
Animate Anyone旨在通過驅動信號從靜態圖像生成角色視頻。我們利用擴散模型的力量,提出了一個專為角色動畫量身定製的新框架。為了保持參考圖像中複雜外觀特徵的一致性,我們設計了ReferenceNet來通過空間注意力合併詳細特徵。為了確保可控性和連續性,我們引入了一個高效的姿勢指導器來指導角色的動作,並採用了一種有效的時間建模方法,以確保視頻幀之間的平滑跨幀過渡。通過擴展訓練數據,我們的方法可以為任意角色製作動畫,與其他圖像到視頻方法相比,在角色動畫方面取得了出色的結果。此外,我們在時尚視頻和人類舞蹈合成的基準上評估了我們的方法,取得了最先進的結果。
AI視頻生成
11.8M