Styletts 2 : 人間レベルの音声合成モデル

Styletts 2

AI音声合成 AI文書翻訳音声 #テキスト音声変換 #音声合成 #スタイル拡散 #敵対的訓練 #大規模言語モデル通常製品オープンソース

紹介 :

StyleTTS 2は、大規模音声言語モデル（SLMs）を用いたスタイル拡散と敵対的訓練により、人間レベルの音声合成を実現したテキスト音声変換（TTS）モデルです。拡散モデルを用いてスタイルを潜在的な確率変数としてモデル化することで、参照音声なしでテキストに最適なスタイルを生成します。さらに、大規模に事前学習されたSLMs（例：WavLM）を識別器として使用し、革新的な微分可能な継続時間モデリングと組み合わせたエンドツーエンドの学習を行うことで、音声の自然さを向上させています。StyleTTS 2は、単一話者LJSpeechデータセットにおいて人間の録音を超え、複数話者VCTKデータセットにおいてはそれと同等の性能を達成し、英語を母語とする評価者から認められています。さらに、LibriTTSデータセットで訓練された場合、以前公開されていたゼロショット拡張モデルを上回ります。本研究は、スタイル拡散と敵対的訓練、そして大規模SLMsの可能性を示すことで、単一話者および複数話者データセットにおいて人間レベルの音声合成を実現しました。

ターゲットユーザー :

テキスト音声変換タスクに適しています

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 216.7K

製品特徴

テキストに最適なスタイルをスタイル拡散によって生成する

大規模に事前学習されたSLMsを識別器として使用する

革新的な微分可能な継続時間モデリングを備える

単一話者および複数話者データセットにおいて人間レベルの音声合成を実現する