百聆
百
百聆
紹介 :
百聆は、音声を通じてユーザーと自然な対話を目指したオープンソースの音声対話アシスタントです。音声認識(ASR)、音声活動検出(VAD)、大規模言語モデル(LLM)、音声合成(TTS)技術を組み合わせることで、高品質の音声対話体験を提供します。主な利点は、GPUなしでGPT-4oに匹敵する対話効果を実現できることであり、様々なエッジデバイスや低リソース環境に適しています。百聆は完全にオープンソースであり、コミュニティによる貢献と二次開発を推奨しています。ユーザーは自身のニーズに合わせてカスタマイズおよび最適化することができます。
ターゲットユーザー :
この製品は、日常会話、情報検索、タスク管理など、効率的な音声対話体験を必要とするユーザーに適しています。百聆は、あらゆる状況で便利な音声サポートを提供し、特にハードウェア構成の要求は低いが、音声対話品質への要求が高いユーザーに最適です。
総訪問数: 502.6M
最も高い割合の地域: US(19.34%)
ウェブサイト閲覧数 : 53.8K
使用シナリオ
ユーザーは音声コマンドで百聆に天気情報を問い合わせることができます。例えば「杭州の天気はどうですか?」と言うと、百聆は杭州の天気情報を返します。
ユーザーは百聆を使用してIELTSスピーキングの練習を行うことができます。百聆はIELTSスピーキングの練習問題と会話を生成し、ユーザーの練習を支援します。
ユーザーは、例えば「毎日午前8時に水を飲むようにリマインドしてください」と言うことで、タイマーをセットできます。百聆は設定された時間にユーザーにリマインドします。
製品特徴
高効率オープンソースモデル:百聆は複数のオープンソースモデルを使用し、高効率で信頼性の高い音声対話体験を保証します。
GPU不要:最適化により、ローカル環境での展開が可能でありながら、GPT-4と同等の性能を発揮します。
モジュール式設計:ASR、VAD、LLM、TTSモジュールは互いに独立しており、必要に応じて交換やアップグレードが可能です。
メモリ機能対応:継続的な学習能力を備えており、ユーザーの好みや過去の対話を記憶し、パーソナライズされたインタラクション体験を提供します。
ツール呼び出し対応:外部ツールを柔軟に統合し、ユーザーは音声で直接情報要求や操作実行が可能となり、アシスタントの実用性を高めます。
タスク管理対応:ユーザーのタスクを効率的に管理し、進捗状況の追跡、リマインダーの設定、動的な更新を提供することで、重要な事項を見逃すことがないようにします。
使用チュートリアル
1. プロジェクトリポジトリのクローン作成:`git clone https://github.com/wwbin2017/bailing.git`、その後、プロジェクトディレクトリに移動`cd bailing`。
2. 必要な依存関係のインストール:`pip install -r requirements.txt`。
3. 環境変数の設定:`config/config.yaml`を開き、ASR、LLMなどの関連設定を行い、SenseVoiceSmallを`models/SenseVoiceSmall`ディレクトリにダウンロードし、deepseekのapi_keyを取得します。
4. バックエンドサービスの起動:`cd server`、`python server.py`を実行します(オプション)。
5. メインプログラムの起動:`python main.py`を実行すると、システムは音声入力を待機し、ユーザーは百聆による音声対話を開始できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase