

Whisper Diarization
紹介 :
whisper-diarizationは、Whisperによる自動音声認識(ASR)、音声活動検出(VAD)、話者埋め込み技術を統合したオープンソースプロジェクトです。音声部分のみを抽出して話者埋め込みの精度を向上させ、Whisperで転写テキストを生成し、WhisperXでタイムスタンプの補正とアライメントを行い、時間ずれによる分離エラーを削減します。その後、MarbleNetを用いてVADと分離を行い無音部分を排除し、TitaNetを用いて話者埋め込みを抽出し各セグメントの話者を識別し、最後にWhisperXで生成されたタイムスタンプと結果を関連付けて、タイムスタンプに基づいて単語ごとの話者を検出し、句読点モデルを用いて微小な時間ずれを補正するために再アライメントを行います。
ターゲットユーザー :
この製品は、自動音声認識と話者分離を必要とする開発者や研究者にとって有用です。特に複数話者を含む音声ファイルの処理において、転写と分離の精度を大幅に向上させることができます。
使用シナリオ
研究者は、whisper-diarizationを使用して学術会議の音声の自動転写と話者識別を行いました。
開発者は、このモデルを使用してビデオ会議ソフトウェアに自動字幕生成と話者ラベル付け機能を追加しました。
コンテンツクリエイターは、whisper-diarizationを使用してポッドキャストやビデオコンテンツのポストプロダクション効率を向上させました。
製品特徴
Whisper ASRを用いた高品質な音声転写
音声活動検出(VAD)技術による無音部分の除去
話者埋め込み技術による話者識別
WhisperXによるタイムスタンプの補正とアライメント
句読点モデルによる転写テキストのアライメント精度向上
バッチ処理推論による処理効率の向上
使用チュートリアル
1. 事前条件として、FFMPEGとCythonがシステムにインストールされていることを確認します。
2. whisper-diarizationのコードリポジトリをクローンまたはダウンロードします。
3. 必要に応じて、`diarize.py`と`helpers.py`内のWhisperXとNeMoのパラメータを変更します。
4. コマンドラインツールを使用して、適切なパラメータと音声ファイル名を入力してモデルを実行します。
5. システムのVRAM容量に応じて、`diarize.py`または`diarize_parallel.py`を使用して処理します。
6. 出力結果を確認し、転写と話者分離の精度を検証します。
7. 問題が発生した場合や改善が必要な場合は、GitHubでissueまたはpull requestを提出してください。