

Reverb
簡介 :
Reverb 是一個開源的語音識別和說話人分割模型推理代碼,使用 WeNet 框架進行語音識別 (ASR) 和 Pyannote 框架進行說話人分割。它提供了詳細的模型描述,並允許用戶從 Hugging Face 下載模型。Reverb 旨在為開發者和研究人員提供高質量的語音識別和說話人分割工具,以支持各種語音處理任務。
需求人群 :
目標受眾主要是語音識別和說話人分割領域的研究人員、開發者和企業用戶。Reverb 提供了高質量的語音處理工具,適合需要進行語音分析和處理的場合,如會議記錄、電話錄音分析等。
使用場景
用於會議記錄的自動語音識別和說話人分割
電話客服錄音的語音內容分析
法庭記錄的語音轉寫和說話人識別
產品特色
基於 WeNet 框架的語音識別代碼
基於 Pyannote 框架的說話人分割代碼
提供長形式語音識別和說話人分割的WER和WDER結果
支持通過 Hugging Face Hub 下載模型
提供 Docker 鏡像以簡化部署
支持在 NVIDIA GPU 上運行以提高性能
提供詳細的安裝和使用說明
使用教程
1. 確保系統中已安裝 Git Large File Storage (LFS)。
2. 使用 HUGGINGFACE_ACCESS_TOKEN 從 Hugging Face Hub 下載模型。
3. 克隆 Reverb 代碼庫到本地。
4. 設置虛擬環境並激活。
5. 在代碼庫根目錄下,設置環境變量以包含 ASR 目錄。
6. 使用 Docker 構建鏡像(如果需要)。
7. 運行 Docker 容器(如果使用 Docker 部署)。
8. 按照 README.md 中的說明進行模型推理和評估。
精選AI產品推薦

GPT SoVITS
GPT-SoVITS-WebUI是一個強大的零樣本語音轉換和文本到語音WebUI。它具有零樣本TTS、少樣本TTS、跨語言支持和WebUI工具等功能。該產品支持英語、日語和中文,提供了集成工具,包括語音伴奏分離、自動訓練集分割、中文ASR和文本標註,幫助初學者創建訓練數據集和GPT/SoVITS模型。用戶可以通過輸入5秒的聲音樣本,即可體驗即時的文本到語音轉換,還可以通過僅使用1分鐘的訓練數據對模型進行微調,以提高語音相似度和逼真度。產品支持環境準備、Python和PyTorch版本、快速安裝、手動安裝、預訓練模型、數據集格式、待辦事項和致謝。
AI語音合成
6.9M

Clone Voice
Clone-Voice是一個帶 web 界面的聲音克隆工具,可使用任何人類音色,將一段文字合成為使用該音色說話的聲音,或者將一個聲音使用該音色轉換為另一個聲音。支持中、英、日、韓、法、德、意等 16 種語言,可在線從麥克風錄製聲音。功能包括文字到語音和聲音到聲音轉換。優勢在於簡單易用且無需 N 卡 GPU,支持多種語言,錄製聲音靈活。產品目前免費使用。
AI語音合成
4.2M