Vividtalk : 生成逼真、唇同步的说唱视频

Vividtalk

AI头像生成 AI视频生成 #音频驱动 #头像生成 #视频合成 #图像动画 #图像生成普通产品开源

简介 :

VividTalk是一种一次性音频驱动的头像生成技术，基于3D混合先验。它能够生成具有表情丰富、自然头部姿态和唇同步的逼真说唱视频。该技术采用了两阶段通用框架，支持生成具有上述所有特性的高视觉质量的说唱视频。具体来说，在第一阶段，通过学习两种运动（非刚性表情运动和刚性头部运动），将音频映射到网格。对于表情运动，采用混合形状和顶点作为中间表示，以最大化模型的表征能力。对于自然头部运动，提出了一种新颖的可学习头部姿势码本，并采用两阶段训练机制。在第二阶段，提出了一个双分支运动VAE和一个生成器，将网格转换为密集运动，并逐帧合成高质量视频。大量实验证明，VividTalk能够生成具有唇同步和逼真增强的高视觉质量说唱视频，且在客观和主观比较中优于以往的最先进作品。该技术的代码将在发表后公开发布。

需求人群 :

VividTalk可用于创建逼真的说唱视频，支持不同风格的面部图像动画，适用于多种语言的说唱视频制作。

总访问量： 205.7K

占比最多地区： CN(31.09%)

本站浏览量： 151.5K

使用场景

1. 使用VividTalk生成逼真的说唱视频，用于虚拟主持人的制作。

2. 利用VividTalk制作卡通风格的音频驱动头像生成视频。

3. 使用VividTalk进行多语言音频驱动的头像生成视频制作。

产品特色

生成逼真、唇同步的说唱视频

支持不同风格的面部图像动画，如人类、写实和卡通