Audio To Photoreal Embodiment : 生成全身照片級人形化身的框架

Audio To Photoreal Embodiment

AI圖像生成 AI視頻生成 #全身照片級人形化身 #姿勢動作 #語音音頻 #向量量化 #擴散 #逼真的人形化身普通產品開源

簡介 :

Audio to Photoreal Embodiment是一個生成全身照片級人形化身的框架。它根據對話動態生成面部、身體和手部的多種姿勢動作。其方法的關鍵在於通過將向量量化的樣本多樣性與擴散所獲得的高頻細節相結合，生成更具動態和表現力的動作。通過高度逼真的人形化身可視化生成的動作，能夠表達出姿勢中的重要細微差別（例如嘲笑和傲慢）。為了促進這一研究方向，我們引入了一種首次亮相的多視圖對話數據集，可以進行照片級重建。實驗證明，我們的模型生成了合適且多樣化的動作，表現優於擴散和僅向量量化的方法。此外，我們的感知評估突出了在準確評估對話姿勢中的微妙動作細節方面，照片級真實感（與網格）的重要性。代碼和數據集可在線獲取。

需求人群 :

適用於生成全身照片級人形化身的框架

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 49.7K

使用場景

語音聊天應用中生成逼真的人形化身

虛擬現實環境中生成逼真的人形化身

在線教育平臺中生成逼真的人形化身

產品特色

根據語音音頻生成全身人形化身的多種姿勢動作

使用向量量化和擴散技術生成動態、表現力強的動作