

FLOAT
簡介 :
FLOAT是一種音頻驅動的人像視頻生成方法,它基於流匹配生成模型,將生成建模從基於像素的潛在空間轉移到學習到的運動潛在空間,實現了時間上一致的運動設計。該技術引入了基於變換器的向量場預測器,並具有簡單而有效的逐幀條件機制。此外,FLOAT支持語音驅動的情感增強,能夠自然地融入富有表現力的運動。廣泛的實驗表明,FLOAT在視覺質量、運動保真度和效率方面均優於現有的音頻驅動說話人像方法。
需求人群 :
目標受眾為需要生成逼真說話人像視頻的開發者、研究人員和內容創作者。FLOAT因其高效的運動設計和情感增強功能,特別適合需要在視頻中融入自然表情和情感的專業人士。
使用場景
1. 使用FLOAT生成具有特定情感表達的公眾演講視頻。
2. 利用FLOAT技術為電影製作逼真的對話場景。
3. 在虛擬現實中,使用FLOAT技術創建具有自然表情的虛擬角色。
產品特色
- 音頻驅動的人像視頻生成:使用單個人像圖像和驅動音頻合成說話人像視頻。
- 運動潛在空間編碼:通過運動潛在自編碼器將給定的人像圖像編碼為身份-運動潛在表示。
- 流匹配生成:通過流匹配(具有最優傳輸軌跡)生成音頻條件的說話人像運動潛在。
- 情感增強:支持語音驅動的情感標籤,提供情感感知的說話人像運動生成的自然方法。
- 情感重定向:在推理階段可以重定向說話人像的情感,通過簡單的獨熱情感標籤進行操作。
- 與最新技術的比較:與非擴散基礎方法和擴散基礎方法進行比較,展示FLOAT的優勢。
- 消融研究:對逐幀AdaLN(和門控)和流匹配進行消融研究,驗證其效果。
- 不同數量的功能評估(NFEs):展示少量NFEs對時間一致性的影響,並展示FLOAT在大約10 NFEs下生成合理視頻結果的能力。
使用教程
1. 訪問FLOAT項目頁面並下載相關代碼。
2. 準備單個人像圖像和相應的驅動音頻。
3. 根據文檔說明,配置音頻條件和情感標籤。
4. 運行FLOAT模型,生成說話人像運動潛在。
5. 通過流匹配生成具有時間一致性的視頻。
6. 調整情感重定向和NFEs以優化視頻結果。
7. 導出並查看生成的逼真說話人像視頻。
精選AI產品推薦
國外精選

Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M