Whisper Diarization : OpenAI Whisperに基づく自動音声認識と話者分離

Whisper Diarization

AI音声認識 AI音声編集 #音声認識 #話者分離 #自動転写 #音声活動検出通常製品オープンソース

紹介 :

whisper-diarizationは、Whisperによる自動音声認識（ASR）、音声活動検出（VAD）、話者埋め込み技術を統合したオープンソースプロジェクトです。音声部分のみを抽出して話者埋め込みの精度を向上させ、Whisperで転写テキストを生成し、WhisperXでタイムスタンプの補正とアライメントを行い、時間ずれによる分離エラーを削減します。その後、MarbleNetを用いてVADと分離を行い無音部分を排除し、TitaNetを用いて話者埋め込みを抽出し各セグメントの話者を識別し、最後にWhisperXで生成されたタイムスタンプと結果を関連付けて、タイムスタンプに基づいて単語ごとの話者を検出し、句読点モデルを用いて微小な時間ずれを補正するために再アライメントを行います。

ターゲットユーザー :

この製品は、自動音声認識と話者分離を必要とする開発者や研究者にとって有用です。特に複数話者を含む音声ファイルの処理において、転写と分離の精度を大幅に向上させることができます。

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 59.1K

使用シナリオ

研究者は、whisper-diarizationを使用して学術会議の音声の自動転写と話者識別を行いました。

開発者は、このモデルを使用してビデオ会議ソフトウェアに自動字幕生成と話者ラベル付け機能を追加しました。

コンテンツクリエイターは、whisper-diarizationを使用してポッドキャストやビデオコンテンツのポストプロダクション効率を向上させました。

製品特徴

Whisper ASRを用いた高品質な音声転写

音声活動検出（VAD）技術による無音部分の除去