

Videochat
簡介 :
VideoChat是一個即時語音交互數字人項目,支持端到端語音方案(GLM-4-Voice - THG)和級聯方案(ASR-LLM-TTS-THG)。用戶可以自定義數字人的形象和音色,支持音色克隆,無需訓練,首包延遲低至3秒。該項目利用了最新的人工智能技術,包括自動語音識別(ASR)、大型語言模型(LLM)、端到端多模態大型語言模型(MLLM)、文本到語音(TTS)和說話頭生成(THG),為用戶提供了一個高度定製化和低延遲的交互體驗。
需求人群 :
目標受眾為開發者和企業用戶,特別是那些需要在應用中集成即時語音交互數字人功能的人。VideoChat通過提供端到端解決方案和高度定製化的選項,使得用戶可以快速部署和使用數字人技術,滿足個性化的交互需求。
使用場景
在線客服,提供24小時客戶諮詢服務
虛擬主播,用於新聞播報和娛樂節目
教育領域,作為虛擬教師進行教學輔助
產品特色
支持端到端語音方案(GLM-4-Voice - THG)和級聯方案(ASR-LLM-TTS-THG)
自定義數字人形象與音色,無需訓練
支持音色克隆功能
首包延遲低至3秒
在線demo提供即時體驗
技術選型包括ASR、LLM、MLLM、TTS和THG
提供本地部署指南和API-KEY配置
使用教程
1. 克隆項目代碼到本地:使用git clone命令克隆項目代碼
2. 環境配置:根據項目要求配置Ubuntu系統、Python版本和CUDA版本
3. 安裝依賴:使用pip install命令安裝requirements.txt中的依賴
4. 下載權重文件:根據指南下載所需的權重文件
5. 配置API-KEY:如果需要使用API服務,按照指南配置API-KEY
6. 啟動服務:運行python app.py啟動服務
7. 使用自定義數字人:根據指南添加自定義數字人形象和音色
8. 測試和優化:運行服務後進行測試,並根據需要進行優化