Audio To Photoreal Embodiment : 生成全身照片级人形化身的框架

Audio To Photoreal Embodiment

AI图像生成 AI视频生成 #全身照片级人形化身 #姿势动作 #语音音频 #向量量化 #扩散 #逼真的人形化身普通产品开源

简介 :

Audio to Photoreal Embodiment是一个生成全身照片级人形化身的框架。它根据对话动态生成面部、身体和手部的多种姿势动作。其方法的关键在于通过将向量量化的样本多样性与扩散所获得的高频细节相结合，生成更具动态和表现力的动作。通过高度逼真的人形化身可视化生成的动作，能够表达出姿势中的重要细微差别（例如嘲笑和傲慢）。为了促进这一研究方向，我们引入了一种首次亮相的多视图对话数据集，可以进行照片级重建。实验证明，我们的模型生成了合适且多样化的动作，表现优于扩散和仅向量量化的方法。此外，我们的感知评估突出了在准确评估对话姿势中的微妙动作细节方面，照片级真实感（与网格）的重要性。代码和数据集可在线获取。

需求人群 :

适用于生成全身照片级人形化身的框架

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 51.1K

使用场景

语音聊天应用中生成逼真的人形化身

虚拟现实环境中生成逼真的人形化身

在线教育平台中生成逼真的人形化身

产品特色

根据语音音频生成全身人形化身的多种姿势动作

使用向量量化和扩散技术生成动态、表现力强的动作