StyleTTS 2
S
Styletts 2
紹介 :
StyleTTS 2は、大規模音声言語モデル(SLMs)を用いたスタイル拡散と敵対的訓練により、人間レベルの音声合成を実現したテキスト音声変換(TTS)モデルです。拡散モデルを用いてスタイルを潜在的な確率変数としてモデル化することで、参照音声なしでテキストに最適なスタイルを生成します。さらに、大規模に事前学習されたSLMs(例:WavLM)を識別器として使用し、革新的な微分可能な継続時間モデリングと組み合わせたエンドツーエンドの学習を行うことで、音声の自然さを向上させています。StyleTTS 2は、単一話者LJSpeechデータセットにおいて人間の録音を超え、複数話者VCTKデータセットにおいてはそれと同等の性能を達成し、英語を母語とする評価者から認められています。さらに、LibriTTSデータセットで訓練された場合、以前公開されていたゼロショット拡張モデルを上回ります。本研究は、スタイル拡散と敵対的訓練、そして大規模SLMsの可能性を示すことで、単一話者および複数話者データセットにおいて人間レベルの音声合成を実現しました。
ターゲットユーザー :
テキスト音声変換タスクに適しています
総訪問数: 502.6M
最も高い割合の地域: US(19.34%)
ウェブサイト閲覧数 : 216.7K
製品特徴
テキストに最適なスタイルをスタイル拡散によって生成する
大規模に事前学習されたSLMsを識別器として使用する
革新的な微分可能な継続時間モデリングを備える
単一話者および複数話者データセットにおいて人間レベルの音声合成を実現する
おすすめAI製品
GPT-SoVITS
GPT SoVITS
GPT-SoVITS-WebUIは、強力なゼロショット音声変換とテキスト音声変換WebUIです。ゼロショットTTS、少サンプルTTS、クロスリンガルサポート、WebUIツールなどの機能を備えています。英語、日本語、中国語に対応しており、音声伴奏分離、自動トレーニングセット分割、中国語ASR、テキストアノテーションなどの統合ツールを提供し、初心者によるトレーニングデータセットとGPT/SoVITSモデルの作成を支援します。5秒の音声サンプルを入力するだけで、即時のテキスト音声変換を体験できます。また、わずか1分のトレーニングデータでモデルを微調整し、音声の類似度とリアルさを向上させることも可能です。環境準備、PythonとPyTorchのバージョン、クイックインストール、手動インストール、学習済みモデル、データセットフォーマット、TODO、謝辞などをサポートしています。
AI音声合成
5.7M
Clone-Voice
Clone Voice
Clone-VoiceはWebインターフェースを備えた音声クローンツールです。あらゆる人間のトーンを使用して、テキストをそのトーンで話す音声に合成したり、ある音声のトーンを別のトーンに変換したりできます。中国語、英語、日本語、韓国語、フランス語、ドイツ語、イタリア語など16言語に対応しており、オンラインでマイクから音声を録音できます。テキスト読み上げと音声変換機能を搭載。NカードGPUが不要で、シンプルで使いやすい点が強みです。多言語対応で、音声録音も柔軟に行えます。現在、無料で利用できます。
AI音声合成
3.6M
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase