

Parler TTS
簡介 :
Parler-TTS 是一個由 Hugging Face 開發的輕量級文本轉語音(TTS)模型,能夠以給定說話者的風格(性別、音調、說話風格等)生成高質量、自然 sounding 的語音。它是基於 Dan Lyth 和 Simon King 發表的論文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》的工作復現,兩位作者分別來自 Stability AI 和愛丁堡大學。與其他TTS模型不同,Parler-TTS 完全開源發佈,包括數據集、預處理、訓練代碼和權重。功能包括:生成高質量且自然 sounding 的語音輸出、靈活的使用和部署、提供豐富的註釋語音數據集。定價:免費。
需求人群 :
可用於生成自然 sounding 的語音,定製特定說話者風格,提供豐富的註釋語音數據集。
使用場景
用於定製化說話者風格的語音生成
快速部署並使用自然 sounding 的語音輸出
訓練和改進TTS模型的豐富資源
產品特色
生成高質量且自然 sounding 的語音輸出
根據給定說話者的風格進行定製
易於使用的安裝和部署方法
提供開源註釋語音數據集
精選AI產品推薦

GPT SoVITS
GPT-SoVITS-WebUI是一個強大的零樣本語音轉換和文本到語音WebUI。它具有零樣本TTS、少樣本TTS、跨語言支持和WebUI工具等功能。該產品支持英語、日語和中文,提供了集成工具,包括語音伴奏分離、自動訓練集分割、中文ASR和文本標註,幫助初學者創建訓練數據集和GPT/SoVITS模型。用戶可以通過輸入5秒的聲音樣本,即可體驗即時的文本到語音轉換,還可以通過僅使用1分鐘的訓練數據對模型進行微調,以提高語音相似度和逼真度。產品支持環境準備、Python和PyTorch版本、快速安裝、手動安裝、預訓練模型、數據集格式、待辦事項和致謝。
AI語音合成
6.9M

Clone Voice
Clone-Voice是一個帶 web 界面的聲音克隆工具,可使用任何人類音色,將一段文字合成為使用該音色說話的聲音,或者將一個聲音使用該音色轉換為另一個聲音。支持中、英、日、韓、法、德、意等 16 種語言,可在線從麥克風錄製聲音。功能包括文字到語音和聲音到聲音轉換。優勢在於簡單易用且無需 N 卡 GPU,支持多種語言,錄製聲音靈活。產品目前免費使用。
AI語音合成
4.2M