Whisper Diarization : 基於OpenAI Whisper的自動語音識別與說話人分割

Whisper Diarization

AI語音識別 AI音頻編輯 #語音識別 #說話人分割 #自動轉錄 #聲音活動檢測普通產品開源

簡介 :

whisper-diarization是一個結合了Whisper自動語音識別(ASR)能力、聲音活動檢測(VAD)和說話人嵌入技術的開源項目。它通過提取音頻中的聲音部分來提高說話人嵌入的準確性，然後使用Whisper生成轉錄文本，並通過WhisperX校正時間戳和對齊，以減少由於時間偏移導致的分割錯誤。接著，使用MarbleNet進行VAD和分割以排除靜音，TitaNet用於提取說話人嵌入以識別每個段落的說話人，最後將結果與WhisperX生成的時間戳關聯，基於時間戳檢測每個單詞的說話人，並使用標點模型重新對齊以補償小的時間偏移。

需求人群 :

該產品適用於需要進行自動語音識別和說話人分割的開發者和研究人員，特別是在處理多說話人音頻文件時，能夠顯著提高轉錄和分割的準確性。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 74.5K

使用場景

研究人員使用whisper-diarization對學術會議的音頻進行自動轉錄和說話人識別。

開發者利用該模型為視頻會議軟件添加自動生成字幕和說話人標籤的功能。

內容創作者使用whisper-diarization來提高播客或視頻內容的後期製作效率。

產品特色

結合Whisper ASR進行高質量的語音轉錄

使用聲音活動檢測(VAD)技術排除靜音