

Styletts 2
簡介 :
StyleTTS 2 是一款文本轉語音(TTS)模型,使用大型語音語言模型(SLMs)進行風格擴散和對抗訓練,實現了人級別的 TTS 合成。它通過擴散模型將風格建模為潛在隨機變量,以生成最適合文本的風格,而無需參考語音。此外,我們使用大型預訓練的 SLMs(如 WavLM)作為判別器,並結合我們的創新可微持續時間建模進行端到端訓練,從而提高了語音的自然度。StyleTTS 2 在單說話人 LJSpeech 數據集上超越了人類錄音,並在多說話人 VCTK 數據集上與之匹配,得到了母語為英語的評審人員的認可。此外,當在 LibriTTS 數據集上進行訓練時,我們的模型優於先前公開可用的零樣本擴展模型。通過展示風格擴散和對抗訓練與大型 SLMs 的潛力,這項工作在單個和多說話人數據集上實現了一個人級別的 TTS 合成。
需求人群 :
適用於文本轉語音合成任務
產品特色
通過風格擴散生成最適合文本的風格
使用大型預訓練的 SLMs 作為判別器
具有創新的可微持續時間建模
在單說話人和多說話人數據集上實現人級別的 TTS 合成
精選AI產品推薦

GPT SoVITS
GPT-SoVITS-WebUI是一個強大的零樣本語音轉換和文本到語音WebUI。它具有零樣本TTS、少樣本TTS、跨語言支持和WebUI工具等功能。該產品支持英語、日語和中文,提供了集成工具,包括語音伴奏分離、自動訓練集分割、中文ASR和文本標註,幫助初學者創建訓練數據集和GPT/SoVITS模型。用戶可以通過輸入5秒的聲音樣本,即可體驗即時的文本到語音轉換,還可以通過僅使用1分鐘的訓練數據對模型進行微調,以提高語音相似度和逼真度。產品支持環境準備、Python和PyTorch版本、快速安裝、手動安裝、預訓練模型、數據集格式、待辦事項和致謝。
AI語音合成
6.9M

Clone Voice
Clone-Voice是一個帶 web 界面的聲音克隆工具,可使用任何人類音色,將一段文字合成為使用該音色說話的聲音,或者將一個聲音使用該音色轉換為另一個聲音。支持中、英、日、韓、法、德、意等 16 種語言,可在線從麥克風錄製聲音。功能包括文字到語音和聲音到聲音轉換。優勢在於簡單易用且無需 N 卡 GPU,支持多種語言,錄製聲音靈活。產品目前免費使用。
AI語音合成
4.2M