Make-An-Audio 2
M
Make An Audio 2
紹介 :
Make-An-Audio 2は、浙江大学、バイトダンス、香港中文大学の研究者らが共同開発した、拡散モデルに基づくテキスト音声変換技術です。本技術は、事前に学習済みの大規模言語モデル(LLM)を用いてテキストを解析し、意味の整合性と時間的一貫性を最適化することで、生成される音声の品質を向上させています。また、フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計することで、可変長音声生成のパフォーマンスを改善し、時間情報の抽出を強化しています。さらに、LLMを用いて大量の音声ラベルデータを音声テキストデータセットに変換することで、時間データの不足という問題を解決しています。
ターゲットユーザー :
本技術の対象ユーザーは、音声合成分野の研究者や開発者、そして高品質なテキスト音声変換を必要とするアプリケーションシナリオ(自動ナレーション、オーディオブック制作など)です。Make-An-Audio 2は、その高度な技術により、テキストの内容と意味が整合し、時間的一貫性のある高品質な音声を生成し、これらのユーザーのニーズを満たします。
総訪問数: 0
最も高い割合の地域: US(60.64%)
ウェブサイト閲覧数 : 53.8K
使用シナリオ
オーディオブックの背景音や会話を自動生成する
動画コンテンツにナレーションや効果音を自動追加する
ゲームやアニメーション用に仮想キャラクターの音声を制作する
製品特徴
事前学習済み大規模言語モデル(LLM)を用いてテキストを解析し、時間情報の取得を最適化
構造化テキストエンコーダを導入し、拡散ノイズ除去過程における意味の整合性を支援
フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計し、可変長音声生成のパフォーマンスを改善
LLMを活用して音声ラベルデータを拡張?変換し、時間データの不足問題を軽減
客観的?主観的指標においてベースラインモデルを上回り、時間情報理解、意味の一貫性、音質を大幅に向上
使用チュートリアル
ステップ1:自然言語テキストを入力として準備する
ステップ2:Make-An-Audio 2のテキストエンコーダでテキストを解析する
ステップ3:構造化テキストエンコーダを利用して意味の整合性を学習する
ステップ4:拡散ノイズ除去器を用いて音声を生成する
ステップ5:生成された音声の長さと時間制御を調整する
ステップ6:必要に応じて構造化入力を修正し、時間を正確に制御する
ステップ7:最終的な音声出力を生成する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase