Videochat : 实时语音交互数字人，支持端到端语音方案

聊天机器人

Videochat

VideoChat

Videochat

聊天机器人数字人 #实时语音交互 #数字人 #自定义形象 #音色克隆 #低延迟普通产品开源

简介 :

VideoChat是一个实时语音交互数字人项目，支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。用户可以自定义数字人的形象和音色，支持音色克隆，无需训练，首包延迟低至3秒。该项目利用了最新的人工智能技术，包括自动语音识别（ASR）、大型语言模型（LLM）、端到端多模态大型语言模型（MLLM）、文本到语音（TTS）和说话头生成（THG），为用户提供了一个高度定制化和低延迟的交互体验。

需求人群 :

目标受众为开发者和企业用户，特别是那些需要在应用中集成实时语音交互数字人功能的人。VideoChat通过提供端到端解决方案和高度定制化的选项，使得用户可以快速部署和使用数字人技术，满足个性化的交互需求。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 96.0K

使用场景

在线客服，提供24小时客户咨询服务

虚拟主播，用于新闻播报和娱乐节目

教育领域，作为虚拟教师进行教学辅助

产品特色

支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）

自定义数字人形象与音色，无需训练

支持音色克隆功能

首包延迟低至3秒

在线demo提供实时体验

技术选型包括ASR、LLM、MLLM、TTS和THG

提供本地部署指南和API-KEY配置

使用教程

1. 克隆项目代码到本地：使用git clone命令克隆项目代码

2. 环境配置：根据项目要求配置Ubuntu系统、Python版本和CUDA版本

3. 安装依赖：使用pip install命令安装requirements.txt中的依赖

4. 下载权重文件：根据指南下载所需的权重文件

5. 配置API-KEY：如果需要使用API服务，按照指南配置API-KEY

6. 启动服务：运行python app.py启动服务

7. 使用自定义数字人：根据指南添加自定义数字人形象和音色

8. 测试和优化：运行服务后进行测试，并根据需要进行优化

精选AI产品推荐

豆包是一款智能聊天机器人，能够与用户进行自然语言交互，提供各种聊天话题，包括天气、新闻、笑话、音乐等。豆包还能够根据用户的喜好和习惯，推荐相关的内容和服务。豆包是你的私人聊天助手，让你不再孤单。

聊天机器人

Kimi智能助手

Kimi智能助手

Kimi Chat是月之暗面科技推出的智能聊天机器人APP。它拥有大容量知识库,可以进行智能闲聊、解答问题、提供生活助手服务等,具有极高的智能交互能力。用户可以随时随地与Kimi聊天寻找乐趣,它的回复丰富多样,使聊天更加有趣。Kimi Chat完全免费,可以通过扫码或在手机上搜索直接使用。

聊天机器人

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase