

Unianimate
簡介 :
UniAnimate是一個用於人物圖像動畫的統一視頻擴散模型框架。它通過將參考圖像、姿勢指導和噪聲視頻映射到一個共同的特徵空間,以減少優化難度並確保時間上的連貫性。UniAnimate能夠處理長序列,支持隨機噪聲輸入和首幀條件輸入,顯著提高了生成長期視頻的能力。此外,它還探索了基於狀態空間模型的替代時間建模架構,以替代原始的計算密集型時間Transformer。UniAnimate在定量和定性評估中都取得了優於現有最先進技術的合成結果,並且能夠通過迭代使用首幀條件策略生成高度一致的一分鐘視頻。
需求人群 :
UniAnimate的目標受眾主要是計算機視覺和圖形學領域的研究人員和開發者,特別是那些專注於人物動畫和視頻生成的專業人士。它適合需要生成高質量、長時序人物視頻動畫的應用場景,如電影製作、遊戲開發、虛擬現實體驗等。
使用場景
使用UniAnimate為電影製作生成高質量的人物動畫。
在遊戲開發中,利用UniAnimate生成連貫的人物動作序列。
虛擬現實體驗中,通過UniAnimate創建逼真的人物動態效果。
產品特色
使用CLIP編碼器和VAE編碼器提取給定參考圖像的潛在特徵。
將參考姿勢的表示納入最終參考指導,以便於學習參考圖像中的人體結構。
使用姿勢編碼器對目標驅動的姿勢序列進行編碼,並與噪聲輸入沿通道維度進行連接。
將連接的噪聲輸入與參考指導沿時間維度堆疊,並輸入到統一視頻擴散模型中以去除噪聲。
在統一視頻擴散模型中,時間模塊可以是時間Transformer或時間Mamba。
採用VAE解碼器將生成的潛在視頻映射到像素空間。
使用教程
首先,準備一張參考圖像和一系列目標姿勢序列。
使用CLIP編碼器和VAE編碼器提取參考圖像的潛在特徵。
將參考姿勢的表示與潛在特徵結合,形成參考指導。
通過姿勢編碼器對目標姿勢序列進行編碼,並與噪聲視頻結合。
將結合後的輸入數據輸入到統一視頻擴散模型中進行噪聲去除。
根據需要選擇時間模塊,可以是時間Transformer或時間Mamba。
最後,使用VAE解碼器將處理後的潛在視頻轉換為像素級的視頻輸出。
精選AI產品推薦

Sora
Sora是一個基於大規模訓練的文本控制視頻生成擴散模型。它能夠生成長達1分鐘的高清視頻,涵蓋廣泛的視覺數據類型和分辨率。Sora通過在視頻和圖像的壓縮潛在空間中訓練,將其分解為時空位置補丁,實現了可擴展的視頻生成。Sora還展現出一些模擬物理世界和數字世界的能力,如三維一致性和交互,揭示了繼續擴大視頻生成模型規模來發展高能力模擬器的前景。
AI視頻生成
17.2M

Animate Anyone
Animate Anyone旨在通過驅動信號從靜態圖像生成角色視頻。我們利用擴散模型的力量,提出了一個專為角色動畫量身定製的新框架。為了保持參考圖像中複雜外觀特徵的一致性,我們設計了ReferenceNet來通過空間注意力合併詳細特徵。為了確保可控性和連續性,我們引入了一個高效的姿勢指導器來指導角色的動作,並採用了一種有效的時間建模方法,以確保視頻幀之間的平滑跨幀過渡。通過擴展訓練數據,我們的方法可以為任意角色製作動畫,與其他圖像到視頻方法相比,在角色動畫方面取得了出色的結果。此外,我們在時尚視頻和人類舞蹈合成的基準上評估了我們的方法,取得了最先進的結果。
AI視頻生成
11.8M