

Stable Video Portraits
紹介 :
Stable Video Portraitsは、事前学習済みのテキストから画像へのモデル(2D)と3D形状モデル(3D)を利用した革新的なハイブリッド2D/3D生成手法です。本技術は、時間的系列の3D形状モデルを条件として用い、時間的ノイズ除去過程を導入することにより、一般の2D安定拡散モデルをビデオモデルへと個人別に微調整することで、時間的な滑らかさを備えた顔画像を生成します。テキストで定義された有名人のイメージに編集?変形することができ、追加のテスト時微調整は不要です。定量的および定性的分析において、既存の一眼カメラによるヘッドアバター手法を上回っています。
ターゲットユーザー :
ターゲットオーディエンスは、コンピュータビジョン研究者、人工知能開発者、デジタルメディアアーティスト、映画?ゲーム制作関係者などです。Stable Video Portraits技術は、リアルな動的な顔生成能力を持つため、バーチャルキャラクターの作成や顔アニメーションを必要とする専門家に特に適しています。
使用シナリオ
映画制作において、リアルなバーチャルキャラクターの生成に使用します。
ゲーム開発において、高度なリアリティを持つNPCの顔アニメーションの作成に使用します。
デジタルアート分野において、アーティストが本技術を用いて独自の芸術作品を創作します。
製品特徴
既存の3D顔面再構成手法、顔解析マッピング(FPM)モデル、Mediapipeを用いて入力ビデオを処理し、各フレームの3D顔面再構成(3DMM)、FPM、虹彩の位置を抽出します。
時間的に安定した輪郭(第1段階)と内部の詳細(第2段階)を生成するために、2つのControlNetsを並列に訓練し、リアルな個人アバターを生成します。
個人アバターは、テキストによってさらに有名人に変形させることができ、追加の微調整は不要です。
前のフレームの予測を使用して、DDIMステップt=τの推論を修正し、前のフレームを考慮することで、時間的に滑らかな出力を実現します。
顔面変形機能により、個人アバターをScarlett JohanssonやEmma Watsonなどの特定の有名人に変形させることができ、頭部の姿勢の一貫性を維持します。
既存の一眼カメラによるヘッドアバター手法との比較を行い、その優位性を示します。
アブレーションスタディを通じて、変形因子、入力制御、ノイズ除去過程の変数が結果に与える影響を分析します。
使用チュートリアル
1. Stable Video Portraitsの公式サイトにアクセスします。
2. 本技術に関する研究論文と手法の概要を読み解きます。
3. 必要なソフトウェアとライブラリをダウンロードしてインストールします。
4. 入力ビデオを用意し、ビデオ品質が3D顔面再構成の要件を満たしていることを確認します。
5. 3D顔面再構成手法、FPMモデル、Mediapipeを使用して、ビデオから3DMM、FPM、虹彩の位置を抽出します。
6. 輪郭と内部の詳細を生成するためにControlNetsを訓練します。
7. 時間的ノイズ除去過程を利用して、時間的に滑らかなビデオ出力を生成します。
8. 必要に応じて、テキスト入力を使用して個人アバターの顔の特徴を調整し、特定の有名人のイメージに合わせます。
おすすめAI製品

Sora
Soraは、大規模データで学習されたテキスト制御型ビデオ生成拡散モデルです。1分間の高解像度ビデオ生成が可能で、幅広い視覚データの種類と解像度に対応します。ビデオと画像の圧縮潜在空間で学習することで、時空間的位置パッチに分解し、スケーラブルなビデオ生成を実現しています。また、三次元の一貫性やインタラクションなど、物理世界とデジタル世界の挙動をある程度シミュレートできる能力を示しており、高性能シミュレータの開発に向けて、ビデオ生成モデルの大規模化が有望であることを示唆しています。
AI動画生成
17.0M

Animate Anyone
Animate Anyoneは、駆動信号から静止画像を基にキャラクタビデオを生成することを目指しています。拡散モデルの力を活用し、キャラクタアニメーション用に特化した新しいフレームワークを提案します。参照画像における複雑な外観特徴の一貫性を維持するため、空間的注意機構を用いて詳細な特徴を統合するReferenceNetを設計しました。制御可能性と連続性を確保するため、キャラクタの動作をガイドする効率的なポーズガイド機構を導入し、ビデオフレーム間の滑らかなクロスフェードを実現する効果的な時間モデリング手法を採用しています。トレーニングデータの拡張により、任意のキャラクタのアニメーション作成が可能になり、他の画像からビデオへの変換手法と比較して、キャラクタアニメーションにおいて優れた結果を得ています。さらに、ファッションビデオと人間のダンス合成のベンチマークにおいて最先端の結果を達成しました。
AI動画生成
11.4M