Vividtalk : 生成逼真、唇同步的說唱視頻

Vividtalk

AI頭像生成 AI視頻生成 #音頻驅動 #頭像生成 #視頻合成 #圖像動畫 #圖像生成普通產品開源

簡介 :

VividTalk是一種一次性音頻驅動的頭像生成技術，基於3D混合先驗。它能夠生成具有表情豐富、自然頭部姿態和唇同步的逼真說唱視頻。該技術採用了兩階段通用框架，支持生成具有上述所有特性的高視覺質量的說唱視頻。具體來說，在第一階段，通過學習兩種運動（非剛性表情運動和剛性頭部運動），將音頻映射到網格。對於表情運動，採用混合形狀和頂點作為中間表示，以最大化模型的表徵能力。對於自然頭部運動，提出了一種新穎的可學習頭部姿勢碼本，並採用兩階段訓練機制。在第二階段，提出了一個雙分支運動VAE和一個生成器，將網格轉換為密集運動，並逐幀合成高質量視頻。大量實驗證明，VividTalk能夠生成具有唇同步和逼真增強的高視覺質量說唱視頻，且在客觀和主觀比較中優於以往的最先進作品。該技術的代碼將在發表後公開發布。

需求人群 :

VividTalk可用於創建逼真的說唱視頻，支持不同風格的面部圖像動畫，適用於多種語言的說唱視頻製作。

總訪問量： 205.7K

佔比最多地區： CN(31.09%)

本站瀏覽量： 151.0K

使用場景

1. 使用VividTalk生成逼真的說唱視頻，用於虛擬主持人的製作。

2. 利用VividTalk製作卡通風格的音頻驅動頭像生成視頻。

3. 使用VividTalk進行多語言音頻驅動的頭像生成視頻製作。

產品特色

生成逼真、唇同步的說唱視頻

支持不同風格的面部圖像動畫，如人類、寫實和卡通