Styletts 2 : 人級別文本轉語音合成模型

Styletts 2

AI語音合成 AI文本轉語音 #文本轉語音 #語音合成 #風格擴散 #對抗訓練 #大型語言模型普通產品開源

簡介 :

StyleTTS 2 是一款文本轉語音（TTS）模型，使用大型語音語言模型（SLMs）進行風格擴散和對抗訓練，實現了人級別的 TTS 合成。它通過擴散模型將風格建模為潛在隨機變量，以生成最適合文本的風格，而無需參考語音。此外，我們使用大型預訓練的 SLMs（如 WavLM）作為判別器，並結合我們的創新可微持續時間建模進行端到端訓練，從而提高了語音的自然度。StyleTTS 2 在單說話人 LJSpeech 數據集上超越了人類錄音，並在多說話人 VCTK 數據集上與之匹配，得到了母語為英語的評審人員的認可。此外，當在 LibriTTS 數據集上進行訓練時，我們的模型優於先前公開可用的零樣本擴展模型。通過展示風格擴散和對抗訓練與大型 SLMs 的潛力，這項工作在單個和多說話人數據集上實現了一個人級別的 TTS 合成。

需求人群 :

適用於文本轉語音合成任務

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 221.4K

產品特色

通過風格擴散生成最適合文本的風格

使用大型預訓練的 SLMs 作為判別器

具有創新的可微持續時間建模

在單說話人和多說話人數據集上實現人級別的 TTS 合成