Unianimate : 高效生成一致性人物視頻動畫的模型

Unianimate

UniAnimate

Unianimate

AI視頻生成 AI圖像生成 #人物動畫 #視頻生成 #擴散模型 #時間建模 #計算機視覺普通產品開源

簡介 :

UniAnimate是一個用於人物圖像動畫的統一視頻擴散模型框架。它通過將參考圖像、姿勢指導和噪聲視頻映射到一個共同的特徵空間，以減少優化難度並確保時間上的連貫性。UniAnimate能夠處理長序列，支持隨機噪聲輸入和首幀條件輸入，顯著提高了生成長期視頻的能力。此外，它還探索了基於狀態空間模型的替代時間建模架構，以替代原始的計算密集型時間Transformer。UniAnimate在定量和定性評估中都取得了優於現有最先進技術的合成結果，並且能夠通過迭代使用首幀條件策略生成高度一致的一分鐘視頻。

需求人群 :

UniAnimate的目標受眾主要是計算機視覺和圖形學領域的研究人員和開發者，特別是那些專注於人物動畫和視頻生成的專業人士。它適合需要生成高質量、長時序人物視頻動畫的應用場景，如電影製作、遊戲開發、虛擬現實體驗等。

總訪問量： 971

佔比最多地區： JP(100.00%)

本站瀏覽量： 121.7K

使用場景

使用UniAnimate為電影製作生成高質量的人物動畫。

在遊戲開發中，利用UniAnimate生成連貫的人物動作序列。

虛擬現實體驗中，通過UniAnimate創建逼真的人物動態效果。

產品特色

使用CLIP編碼器和VAE編碼器提取給定參考圖像的潛在特徵。

將參考姿勢的表示納入最終參考指導，以便於學習參考圖像中的人體結構。

使用姿勢編碼器對目標驅動的姿勢序列進行編碼，並與噪聲輸入沿通道維度進行連接。

將連接的噪聲輸入與參考指導沿時間維度堆疊，並輸入到統一視頻擴散模型中以去除噪聲。

在統一視頻擴散模型中，時間模塊可以是時間Transformer或時間Mamba。

採用VAE解碼器將生成的潛在視頻映射到像素空間。

使用教程

首先，準備一張參考圖像和一系列目標姿勢序列。

使用CLIP編碼器和VAE編碼器提取參考圖像的潛在特徵。

將參考姿勢的表示與潛在特徵結合，形成參考指導。

通過姿勢編碼器對目標姿勢序列進行編碼，並與噪聲視頻結合。

將結合後的輸入數據輸入到統一視頻擴散模型中進行噪聲去除。

根據需要選擇時間模塊，可以是時間Transformer或時間Mamba。

最後，使用VAE解碼器將處理後的潛在視頻轉換為像素級的視頻輸出。

精選AI產品推薦

Sora

Sora是一個基於大規模訓練的文本控制視頻生成擴散模型。它能夠生成長達1分鐘的高清視頻,涵蓋廣泛的視覺數據類型和分辨率。Sora通過在視頻和圖像的壓縮潛在空間中訓練,將其分解為時空位置補丁,實現了可擴展的視頻生成。Sora還展現出一些模擬物理世界和數字世界的能力,如三維一致性和交互,揭示了繼續擴大視頻生成模型規模來發展高能力模擬器的前景。

Animate Anyone

Animate Anyone旨在通過驅動信號從靜態圖像生成角色視頻。我們利用擴散模型的力量，提出了一個專為角色動畫量身定製的新框架。為了保持參考圖像中複雜外觀特徵的一致性，我們設計了ReferenceNet來通過空間注意力合併詳細特徵。為了確保可控性和連續性，我們引入了一個高效的姿勢指導器來指導角色的動作，並採用了一種有效的時間建模方法，以確保視頻幀之間的平滑跨幀過渡。通過擴展訓練數據，我們的方法可以為任意角色製作動畫，與其他圖像到視頻方法相比，在角色動畫方面取得了出色的結果。此外，我們在時尚視頻和人類舞蹈合成的基準上評估了我們的方法，取得了最先進的結果。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase