
使用場景
開發者可以利用該模型創建一個語音助手,實現語音交互。
研究人員可以使用該模型進行語音識別和語音合成的實驗和研究。
教育機構可以將其集成到教學工具中,提高學生對語音技術的理解。
產品特色
語音活動檢測(VAD):使用silero VAD v5。
語音轉文本(STT):使用Whisper模型,包括蒸餾版本。
語言模型(LM):可以在Hugging Face Hub上選擇任何可用的指令模型。
文本轉語音(TTS):使用Parler-TTS,支持不同的檢查點。
模塊化設計:每個組件都作為類實現,可以根據特定需求進行重新實現。
支持服務器/客戶端方法和本地方法運行。
使用教程
克隆倉庫到本地環境。
安裝所需的依賴。
根據需要配置模型參數和生成參數。
選擇運行方式:服務器/客戶端方法或本地方法。
如果是服務器/客戶端方法,先在服務器上運行模型,然後在客戶端處理音頻輸入和輸出。
如果是本地方法,使用迴環地址運行。
利用Torch Compile優化Whisper和Parler-TTS的性能。
通過命令行使用模型,指定不同的參數來控制不同部分的行為。
精選AI產品推薦

GPT SoVITS
GPT-SoVITS-WebUI是一個強大的零樣本語音轉換和文本到語音WebUI。它具有零樣本TTS、少樣本TTS、跨語言支持和WebUI工具等功能。該產品支持英語、日語和中文,提供了集成工具,包括語音伴奏分離、自動訓練集分割、中文ASR和文本標註,幫助初學者創建訓練數據集和GPT/SoVITS模型。用戶可以通過輸入5秒的聲音樣本,即可體驗即時的文本到語音轉換,還可以通過僅使用1分鐘的訓練數據對模型進行微調,以提高語音相似度和逼真度。產品支持環境準備、Python和PyTorch版本、快速安裝、手動安裝、預訓練模型、數據集格式、待辦事項和致謝。
AI語音合成
6.9M

Clone Voice
Clone-Voice是一個帶 web 界面的聲音克隆工具,可使用任何人類音色,將一段文字合成為使用該音色說話的聲音,或者將一個聲音使用該音色轉換為另一個聲音。支持中、英、日、韓、法、德、意等 16 種語言,可在線從麥克風錄製聲音。功能包括文字到語音和聲音到聲音轉換。優勢在於簡單易用且無需 N 卡 GPU,支持多種語言,錄製聲音靈活。產品目前免費使用。
AI語音合成
4.2M