音声からフォトリアルなアバター生成 : 全身写真級のフォトリアルなアバターを生成するフレームワーク

音声からフォトリアルなアバター生成

AI画像生成 AI動画生成 #全身写真級フォトリアルアバター #ポーズ?動き #音声データ #ベクトル量子化 #拡散モデル #リアルなアバター通常製品オープンソース

紹介 :

音声からフォトリアルなアバター生成は、全身写真級のフォトリアルなアバターを生成するフレームワークです。会話に基づいて、顔、体、手の様々なポーズと動きを動的に生成します。本手法の鍵は、ベクトル量子化によるサンプルの多様性と、拡散モデルによる高周波数のディテールの組み合わせにより、よりダイナミックで表現力豊かな動きを生成することです。高度にリアルなアバターによって視覚化された生成された動きは、ポーズにおける微妙なニュアンス（例えば、嘲笑や傲慢など）を表現できます。この研究分野を促進するために、写真級の再構成を可能にする、初公開となるマルチビュー会話データセットを紹介します。実験により、当モデルは適切かつ多様な動きを生成し、拡散モデルのみやベクトル量子化のみの手法よりも優れた性能を示すことが実証されました。さらに、私たちの知覚評価は、会話を伴うポーズにおける微妙な動作の詳細を正確に評価する上で、写真級のリアリズム（メッシュと比較して）の重要性を浮き彫りにしました。コードとデータセットはオンラインで入手可能です。

ターゲットユーザー :

全身写真級フォトリアルアバター生成フレームワークとして利用可能

総訪問数： 26.1M

最も高い割合の地域： US(17.94%)

ウェブサイト閲覧数： 50.2K

使用シナリオ

リアルなアバターを生成する音声チャットアプリケーション

リアルなアバターを生成するバーチャルリアリティ環境

リアルなアバターを生成するオンライン教育プラットフォーム

製品特徴

音声データから全身アバターの様々なポーズと動きを生成する

ベクトル量子化と拡散技術を用いて、ダイナミックで表現力豊かな動きを生成する