

Reverb
简介 :
Reverb 是一个开源的语音识别和说话人分割模型推理代码,使用 WeNet 框架进行语音识别 (ASR) 和 Pyannote 框架进行说话人分割。它提供了详细的模型描述,并允许用户从 Hugging Face 下载模型。Reverb 旨在为开发者和研究人员提供高质量的语音识别和说话人分割工具,以支持各种语音处理任务。
需求人群 :
目标受众主要是语音识别和说话人分割领域的研究人员、开发者和企业用户。Reverb 提供了高质量的语音处理工具,适合需要进行语音分析和处理的场合,如会议记录、电话录音分析等。
使用场景
用于会议记录的自动语音识别和说话人分割
电话客服录音的语音内容分析
法庭记录的语音转写和说话人识别
产品特色
基于 WeNet 框架的语音识别代码
基于 Pyannote 框架的说话人分割代码
提供长形式语音识别和说话人分割的WER和WDER结果
支持通过 Hugging Face Hub 下载模型
提供 Docker 镜像以简化部署
支持在 NVIDIA GPU 上运行以提高性能
提供详细的安装和使用说明
使用教程
1. 确保系统中已安装 Git Large File Storage (LFS)。
2. 使用 HUGGINGFACE_ACCESS_TOKEN 从 Hugging Face Hub 下载模型。
3. 克隆 Reverb 代码库到本地。
4. 设置虚拟环境并激活。
5. 在代码库根目录下,设置环境变量以包含 ASR 目录。
6. 使用 Docker 构建镜像(如果需要)。
7. 运行 Docker 容器(如果使用 Docker 部署)。
8. 按照 README.md 中的说明进行模型推理和评估。
精选AI产品推荐

GPT SoVITS
GPT-SoVITS-WebUI是一个强大的零样本语音转换和文本到语音WebUI。它具有零样本TTS、少样本TTS、跨语言支持和WebUI工具等功能。该产品支持英语、日语和中文,提供了集成工具,包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,帮助初学者创建训练数据集和GPT/SoVITS模型。用户可以通过输入5秒的声音样本,即可体验即时的文本到语音转换,还可以通过仅使用1分钟的训练数据对模型进行微调,以提高语音相似度和逼真度。产品支持环境准备、Python和PyTorch版本、快速安装、手动安装、预训练模型、数据集格式、待办事项和致谢。
AI语音合成
6.9M

Clone Voice
Clone-Voice是一个带 web 界面的声音克隆工具,可使用任何人类音色,将一段文字合成为使用该音色说话的声音,或者将一个声音使用该音色转换为另一个声音。支持中、英、日、韩、法、德、意等 16 种语言,可在线从麦克风录制声音。功能包括文字到语音和声音到声音转换。优势在于简单易用且无需 N 卡 GPU,支持多种语言,录制声音灵活。产品目前免费使用。
AI语音合成
4.2M