VLOGGER
V
VLOGGER
簡介 :
VLOGGER是一種從單張人物輸入圖像生成文本和音頻驅動的講話人類視頻的方法,它建立在最近生成擴散模型的成功基礎上。我們的方法包括1)一個隨機的人類到3D運動擴散模型,以及2)一個新穎的基於擴散的架構,通過時間和空間控制增強文本到圖像模型。這種方法能夠生成長度可變的高質量視頻,並且通過對人類面部和身體的高級表達方式輕鬆可控。與以前的工作不同,我們的方法不需要為每個人訓練,也不依賴於人臉檢測和裁剪,生成完整的圖像(而不僅僅是面部或嘴唇),並考慮到正確合成交流人類所需的廣泛場景(例如可見的軀幹或多樣性主體身份)。
需求人群 :
適用於需要從單張靜態圖像生成動態視頻的場景,如視頻編輯、形象替換等。
總訪問量: 1.6K
佔比最多地區: US(54.43%)
本站瀏覽量 : 329.5K
使用場景
生成真實人體視頻
編輯現有視頻內容
視頻翻譯
產品特色
文本和音頻驅動的視頻生成
高質量視頻生成
可控性高
身體運動模擬
面部和姿勢控制
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase