

Streamvoice
紹介 :
StreamVoiceは、言語モデルに基づいたゼロリップ音声変換モデルです。完全なソース音声なしでリアルタイム変換を実現します。全因果的コンテキスト認識言語モデルと時間独立の聴覚予測器を組み合わせることで、各時間ステップで意味的特徴と聴覚的特徴を交互に処理し、完全なソース音声への依存を解消します。ストリーミング処理におけるコンテキストの不完全性による性能低下を軽減するため、StreamVoiceは2つの戦略によって言語モデルのコンテキスト認識能力を高めています。1)教師付きコンテキスト予測:教師モデルを用いて現在と将来の意味的コンテキストを要約し、欠損コンテキストの予測を学習します。2)意味的マスキング:損傷した過去の意味的および聴覚的入力からの聴覚予測を促進し、コンテキスト学習能力を強化します。特筆すべきは、StreamVoiceが未来予測を一切必要としない、初の言語モデルベースのストリーミング型ゼロリップ音声変換モデルであることです。実験結果によると、StreamVoiceはストリーミング変換能力を備えつつ、非ストリーミング音声変換システムと同等のゼロリップ性能を維持しています。
ターゲットユーザー :
StreamVoiceは、音楽制作、音声合成、音声変換などの分野で活用できます。
使用シナリオ
音楽制作において、StreamVoiceを使用して歌手の声を異なるスタイルの歌手に変換する
音声合成において、StreamVoiceを使用してテキストを異なる話し方の音声に変換する
音声変換において、StreamVoiceを使用して講演者の声を異なる話し方に変換する
製品特徴
リアルタイムゼロリップ音声変換
ストリーミング処理
コンテキスト認識言語モデル
おすすめAI製品

GPT SoVITS
GPT-SoVITS-WebUIは、強力なゼロショット音声変換とテキスト音声変換WebUIです。ゼロショットTTS、少サンプルTTS、クロスリンガルサポート、WebUIツールなどの機能を備えています。英語、日本語、中国語に対応しており、音声伴奏分離、自動トレーニングセット分割、中国語ASR、テキストアノテーションなどの統合ツールを提供し、初心者によるトレーニングデータセットとGPT/SoVITSモデルの作成を支援します。5秒の音声サンプルを入力するだけで、即時のテキスト音声変換を体験できます。また、わずか1分のトレーニングデータでモデルを微調整し、音声の類似度とリアルさを向上させることも可能です。環境準備、PythonとPyTorchのバージョン、クイックインストール、手動インストール、学習済みモデル、データセットフォーマット、TODO、謝辞などをサポートしています。
AI音声合成
5.7M

Clone Voice
Clone-VoiceはWebインターフェースを備えた音声クローンツールです。あらゆる人間のトーンを使用して、テキストをそのトーンで話す音声に合成したり、ある音声のトーンを別のトーンに変換したりできます。中国語、英語、日本語、韓国語、フランス語、ドイツ語、イタリア語など16言語に対応しており、オンラインでマイクから音声を録音できます。テキスト読み上げと音声変換機能を搭載。NカードGPUが不要で、シンプルで使いやすい点が強みです。多言語対応で、音声録音も柔軟に行えます。現在、無料で利用できます。
AI音声合成
3.6M