Streamvoice : 即時零唇語音轉換的流式上下文感知語言建模

Streamvoice

AI語音合成 AI語音克隆 #語音轉換 #上下文感知 #即時處理 #零唇普通產品開源

簡介 :

StreamVoice是一種基於語言模型的零唇語音轉換模型，可實現即時轉換，無需完整的源語音。它採用全因果上下文感知語言模型，結合時間獨立的聲學預測器，能夠在每個時間步驟交替處理語義和聲學特徵，從而消除對完整源語音的依賴。為了增強在流式處理中可能出現的上下文不完整而導致的性能下降，StreamVoice通過兩種策略增強了語言模型的上下文感知性：1）教師引導的上下文預見，在訓練過程中利用教師模型總結當前和未來的語義上下文，引導模型對缺失上下文進行預測；2）語義屏蔽策略，促進從先前受損的語義和聲學輸入進行聲學預測，增強上下文學習能力。值得注意的是，StreamVoice是第一個基於語言模型的流式零唇語音轉換模型，無需任何未來預測。實驗結果表明，StreamVoice具有流式轉換能力，同時保持與非流式語音轉換系統相媲美的零唇性能。

需求人群 :

StreamVoice可用於音樂製作、語音合成、語音轉換等領域。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 78.1K

使用場景

在音樂製作中，使用StreamVoice將歌手的聲音轉換為不同風格的歌手

在語音合成中，使用StreamVoice將文字轉換為不同說話風格的語音

在語音轉換中，使用StreamVoice將演講者的語音轉換為不同的說話風格

產品特色

即時零唇語音轉換

流式處理