Styletts 2 : 人级别文本转语音合成模型

Styletts 2

AI语音合成 AI文本转语音 #文本转语音 #语音合成 #风格扩散 #对抗训练 #大型语言模型普通产品开源

简介 :

StyleTTS 2 是一款文本转语音（TTS）模型，使用大型语音语言模型（SLMs）进行风格扩散和对抗训练，实现了人级别的 TTS 合成。它通过扩散模型将风格建模为潜在随机变量，以生成最适合文本的风格，而无需参考语音。此外，我们使用大型预训练的 SLMs（如 WavLM）作为判别器，并结合我们的创新可微持续时间建模进行端到端训练，从而提高了语音的自然度。StyleTTS 2 在单说话人 LJSpeech 数据集上超越了人类录音，并在多说话人 VCTK 数据集上与之匹配，得到了母语为英语的评审人员的认可。此外，当在 LibriTTS 数据集上进行训练时，我们的模型优于先前公开可用的零样本扩展模型。通过展示风格扩散和对抗训练与大型 SLMs 的潜力，这项工作在单个和多说话人数据集上实现了一个人级别的 TTS 合成。

需求人群 :

适用于文本转语音合成任务

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 223.3K

产品特色

通过风格扩散生成最适合文本的风格

使用大型预训练的 SLMs 作为判别器

具有创新的可微持续时间建模

在单说话人和多说话人数据集上实现人级别的 TTS 合成