
使用場景
在會議中,通過 LookOnceToHear 選擇聽取特定發言人的聲音
在嘈雜的公共場所,幫助聽力障礙者集中聽取對話
在音頻分析研究中,用於區分和提取多個聲源
產品特色
用戶通過看向目標說話者幾秒鐘來選擇想要聽到的聲音
使用 Scaper 工具包合成生成音頻混合
提供自包含的數據集和訓練用的 .jams 規範文件
支持即時語音提取和目標語音聽力模型的評估
提供了模型的檢查點,方便用戶進行訓練和評估
適用於嘈雜環境下的語音識別和提取
使用教程
下載並解壓提供的 .zip 文件到 data/ 目錄
運行命令以開始訓練過程
使用 Scaper 的 generate_from_jams 函數在 .jams 規範文件上生成音頻混合
下載並加載目標語音聽力模型的檢查點進行評估
根據需要調整模型參數以優化性能
在實際應用中,用戶只需看向目標說話者即可開始語音提取