Whisperfusion : AIによるリアルタイム会話、超低遅延

Whisperfusion

AI音声認識 AI音声アシスタント #AI #リアルタイム会話 #音声認識 #大規模言語モデル #TensorRT 通常製品オープンソース

紹介 :

WhisperFusionは、WhisperLiveとWhisperSpeechの機能をベースとした製品です。リアルタイムの音声テキスト化プロセスにMistral大規模言語モデル（LLM）を統合することで、AIとのシームレスな会話を実現します。WhisperとLLMはどちらもTensorRTエンジンで最適化され、パフォーマンスとリアルタイム処理能力を最大限に高めています。WhisperSpeechはtorch.compileを使用して最適化されています。超低遅延のAIリアルタイム会話体験を提供することを目指しています。

ターゲットユーザー :

事前に構築されたTensorRT-LLM Dockerコンテナを使用することで、WhisperFusionとのインタラクションを迅速に開始できます。また、さまざまなCUDAアーキテクチャに対応したDockerイメージを構築することも可能です。

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 139.4K

使用シナリオ

1. ウェブサイトでWhisperFusionのAIとリアルタイム会話を行う

2. WhisperFusionのミニプログラムで音声テキスト化インタラクションを行う

3. WhisperFusionプラグインを使用してデスクトップクライアントでリアルタイム音声認識を行う

製品特徴

リアルタイム音声テキスト化：OpenAI WhisperLiveを利用してリアルタイムの音声テキスト化を行います。

大規模言語モデル統合：Mistral大規模言語モデルを統合し、転写テキストの理解とコンテキストを強化します。