

Make An Audio 2
紹介 :
Make-An-Audio 2は、浙江大学、バイトダンス、香港中文大学の研究者らが共同開発した、拡散モデルに基づくテキスト音声変換技術です。本技術は、事前に学習済みの大規模言語モデル(LLM)を用いてテキストを解析し、意味の整合性と時間的一貫性を最適化することで、生成される音声の品質を向上させています。また、フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計することで、可変長音声生成のパフォーマンスを改善し、時間情報の抽出を強化しています。さらに、LLMを用いて大量の音声ラベルデータを音声テキストデータセットに変換することで、時間データの不足という問題を解決しています。
ターゲットユーザー :
本技術の対象ユーザーは、音声合成分野の研究者や開発者、そして高品質なテキスト音声変換を必要とするアプリケーションシナリオ(自動ナレーション、オーディオブック制作など)です。Make-An-Audio 2は、その高度な技術により、テキストの内容と意味が整合し、時間的一貫性のある高品質な音声を生成し、これらのユーザーのニーズを満たします。
使用シナリオ
オーディオブックの背景音や会話を自動生成する
動画コンテンツにナレーションや効果音を自動追加する
ゲームやアニメーション用に仮想キャラクターの音声を制作する
製品特徴
事前学習済み大規模言語モデル(LLM)を用いてテキストを解析し、時間情報の取得を最適化
構造化テキストエンコーダを導入し、拡散ノイズ除去過程における意味の整合性を支援
フィードフォワード型Transformerに基づく拡散ノイズ除去器を設計し、可変長音声生成のパフォーマンスを改善
LLMを活用して音声ラベルデータを拡張?変換し、時間データの不足問題を軽減
客観的?主観的指標においてベースラインモデルを上回り、時間情報理解、意味の一貫性、音質を大幅に向上
使用チュートリアル
ステップ1:自然言語テキストを入力として準備する
ステップ2:Make-An-Audio 2のテキストエンコーダでテキストを解析する
ステップ3:構造化テキストエンコーダを利用して意味の整合性を学習する
ステップ4:拡散ノイズ除去器を用いて音声を生成する
ステップ5:生成された音声の長さと時間制御を調整する
ステップ6:必要に応じて構造化入力を修正し、時間を正確に制御する
ステップ7:最終的な音声出力を生成する
おすすめAI製品
中国語精選

天工skymusic
昆侖万維の「天工3.0」超大規模言語モデルを基盤として開発されたAI音楽生成大規模言語モデル「天工SkyMusic」。高品質なAI音楽生成、音声合成、歌詞セクション制御、多様な音楽スタイルと音楽的表現機能などをサポートします。現在、無料招待テストを実施しており、ユーザーの音楽創作と感情表現を支援します。
AI音楽生成
999.9K

TME Studio
TME Studioは、音楽愛好家のための創作ツールです。楽曲分離、MIR計算、作詞支援、スマート楽譜作成などの機能を搭載しています。ユーザーは任意の楽曲をアップロードし、ボーカルと楽器の音声を分離して、音楽内容の理解と分析を行い、様々な音楽情報を抽出できます。また、作詞ツールも提供しており、適切な韻を踏んだ言葉を見つけることで、創作のインスピレーションを刺激します。さらに、音楽をアップロードするだけで、スマートギター楽譜を作成し、自分が弾きたい曲を簡単に演奏することもできます。音楽創作アシスタントが、音楽愛好家の音楽創作をより簡単に支援します。
AI音楽生成
690.3K