Streamvoice : リアルタイムのゼロリップ音声変換を実現する、ストリーミング対応のコンテキスト認識言語モデル

Streamvoice

AI音声合成 AI音声克隆 #音声変換 #コンテキスト認識 #リアルタイム処理 #ゼロリップ通常製品オープンソース

紹介 :

StreamVoiceは、言語モデルに基づいたゼロリップ音声変換モデルです。完全なソース音声なしでリアルタイム変換を実現します。全因果的コンテキスト認識言語モデルと時間独立の聴覚予測器を組み合わせることで、各時間ステップで意味的特徴と聴覚的特徴を交互に処理し、完全なソース音声への依存を解消します。ストリーミング処理におけるコンテキストの不完全性による性能低下を軽減するため、StreamVoiceは2つの戦略によって言語モデルのコンテキスト認識能力を高めています。1）教師付きコンテキスト予測：教師モデルを用いて現在と将来の意味的コンテキストを要約し、欠損コンテキストの予測を学習します。2）意味的マスキング：損傷した過去の意味的および聴覚的入力からの聴覚予測を促進し、コンテキスト学習能力を強化します。特筆すべきは、StreamVoiceが未来予測を一切必要としない、初の言語モデルベースのストリーミング型ゼロリップ音声変換モデルであることです。実験結果によると、StreamVoiceはストリーミング変換能力を備えつつ、非ストリーミング音声変換システムと同等のゼロリップ性能を維持しています。

ターゲットユーザー :

StreamVoiceは、音楽制作、音声合成、音声変換などの分野で活用できます。

総訪問数： 26.1M

最も高い割合の地域： US(17.94%)

ウェブサイト閲覧数： 78.9K

使用シナリオ

音楽制作において、StreamVoiceを使用して歌手の声を異なるスタイルの歌手に変換する

音声合成において、StreamVoiceを使用してテキストを異なる話し方の音声に変換する

音声変換において、StreamVoiceを使用して講演者の声を異なる話し方に変換する

製品特徴

リアルタイムゼロリップ音声変換

ストリーミング処理