Make An Audio 2 : 拡散モデルに基づくテキスト音声変換技術

Make An Audio 2

AI音楽生成 AI音声生成 #テキスト音声変換 #拡散モデル #大規模言語モデル #音声合成通常製品オープンソース

紹介 :

Make-An-Audio 2は、浙江大学、バイトダンス、香港中文大学の研究者らが共同開発した、拡散モデルに基づくテキスト音声変換技術です。本技術は、事前に学習済みの大規模言語モデル（LLM）を用いてテキストを解析し、意味の整合性と時間的一貫性を最適化することで、生成される音声の品質を向上させています。また、フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計することで、可変長音声生成のパフォーマンスを改善し、時間情報の抽出を強化しています。さらに、LLMを用いて大量の音声ラベルデータを音声テキストデータセットに変換することで、時間データの不足という問題を解決しています。

ターゲットユーザー :

本技術の対象ユーザーは、音声合成分野の研究者や開発者、そして高品質なテキスト音声変換を必要とするアプリケーションシナリオ（自動ナレーション、オーディオブック制作など）です。Make-An-Audio 2は、その高度な技術により、テキストの内容と意味が整合し、時間的一貫性のある高品質な音声を生成し、これらのユーザーのニーズを満たします。

総訪問数： 0

最も高い割合の地域： US(60.64%)

ウェブサイト閲覧数： 53.8K

使用シナリオ

オーディオブックの背景音や会話を自動生成する

動画コンテンツにナレーションや効果音を自動追加する

ゲームやアニメーション用に仮想キャラクターの音声を制作する

製品特徴

事前学習済み大規模言語モデル（LLM）を用いてテキストを解析し、時間情報の取得を最適化

構造化テキストエンコーダを導入し、拡散ノイズ除去過程における意味の整合性を支援

フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計し、可変長音声生成のパフォーマンスを改善

LLMを活用して音声ラベルデータを拡張?変換し、時間データの不足問題を軽減