

百聆
簡介 :
百聆是一個開源的語音對話助手,旨在通過語音與用戶進行自然的對話。該項目結合了語音識別(ASR)、語音活動檢測(VAD)、大語言模型(LLM)和語音合成(TTS)技術,提供高質量的語音對話體驗。其主要優點是無需GPU即可實現類GPT-4o的對話效果,適用於各種邊緣設備和低資源環境。百聆完全開源,鼓勵社區貢獻與二次開發,用戶可以根據自己的需求進行定製和優化。
需求人群 :
該產品適合需要高效語音交互體驗的用戶,無論是日常對話、信息查詢還是任務管理,百聆都能提供便捷的語音支持,尤其適合對硬件配置要求不高但對語音交互質量有較高要求的用戶。
使用場景
用戶可以通過語音指令讓百聆查詢天氣情況,如說‘杭州天氣怎麼樣?’,百聆會返回杭州的天氣信息。
用戶可以使用百聆進行雅思口語練習,百聆會生成雅思口語練習題目和對話,幫助用戶進行練習。
用戶可以設置定時任務,如說‘每天早上8點提醒我喝水。’,百聆會按照設定的時間提醒用戶。
產品特色
高效開源模型:百聆使用多個開源模型,確保高效、可靠的語音對話體驗。
無需GPU:通過優化,可本地部署,仍能提供類GPT-4的性能表現。
模塊化設計:ASR、VAD、LLM和TTS模塊相互獨立,可根據需求進行替換和升級。
支持記憶功能:具備持續學習能力,能夠記憶用戶的偏好與歷史對話,提供個性化的互動體驗。
支持工具調用:靈活集成外部工具,用戶可通過語音直接請求信息或執行操作,提升助手的實用性。
支持任務管理:高效管理用戶任務,能夠跟蹤進度、設置提醒,並提供動態更新,確保用戶不錯過任何重要事項。
使用教程
1. 克隆項目倉庫:git clone https://github.com/wwbin2017/bailing.git,然後進入項目目錄cd bailing。
2. 安裝所需依賴:pip install -r requirements.txt。
3. 配置環境變量:打開config/config.yaml配置ASR LLM等相關配置,下載SenseVoiceSmall到目錄models/SenseVoiceSmall,並獲取deepseek的api_key。
4. 啟動後端服務:cd server,運行python server.py(可選)。
5. 啟動主程序:運行python main.py,系統會等待語音輸入,用戶即可開始使用百聆進行語音對話。