LookOnceToHear
L
Lookoncetohear
簡介 :
LookOnceToHear 是一種創新的智能耳機交互系統,允許用戶通過簡單的視覺識別來選擇想要聽到的目標說話者。這項技術在 CHI 2024 上獲得了最佳論文榮譽提名。它通過合成音頻混合、頭相關傳輸函數(HRTFs)和雙耳房間脈衝響應(BRIRs)來實現即時語音提取,為用戶提供了一種新穎的交互方式。
需求人群 :
該產品適合需要在嘈雜環境中進行語音識別和提取的研究人員和開發者。例如,它可以幫助聽力障礙者在嘈雜環境中更好地理解對話,或者在多聲源環境中進行語音分析和處理。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 90.3K
使用場景
在會議中,通過 LookOnceToHear 選擇聽取特定發言人的聲音
在嘈雜的公共場所,幫助聽力障礙者集中聽取對話
在音頻分析研究中,用於區分和提取多個聲源
產品特色
用戶通過看向目標說話者幾秒鐘來選擇想要聽到的聲音
使用 Scaper 工具包合成生成音頻混合
提供自包含的數據集和訓練用的 .jams 規範文件
支持即時語音提取和目標語音聽力模型的評估
提供了模型的檢查點,方便用戶進行訓練和評估
適用於嘈雜環境下的語音識別和提取
使用教程
下載並解壓提供的 .zip 文件到 data/ 目錄
運行命令以開始訓練過程
使用 Scaper 的 generate_from_jams 函數在 .jams 規範文件上生成音頻混合
下載並加載目標語音聽力模型的檢查點進行評估
根據需要調整模型參數以優化性能
在實際應用中,用戶只需看向目標說話者即可開始語音提取
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase