Lookoncetohear : 即時語音提取智能耳機交互系統

Lookoncetohear

LookOnceToHear

Lookoncetohear

AI語音識別 AI音頻編輯 #語音識別 #即時處理 #智能耳機 #交互系統普通產品開源

簡介 :

LookOnceToHear 是一種創新的智能耳機交互系統，允許用戶通過簡單的視覺識別來選擇想要聽到的目標說話者。這項技術在 CHI 2024 上獲得了最佳論文榮譽提名。它通過合成音頻混合、頭相關傳輸函數(HRTFs)和雙耳房間脈衝響應(BRIRs)來實現即時語音提取，為用戶提供了一種新穎的交互方式。

需求人群 :

該產品適合需要在嘈雜環境中進行語音識別和提取的研究人員和開發者。例如，它可以幫助聽力障礙者在嘈雜環境中更好地理解對話，或者在多聲源環境中進行語音分析和處理。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 90.3K

使用場景

在會議中，通過 LookOnceToHear 選擇聽取特定發言人的聲音

在嘈雜的公共場所，幫助聽力障礙者集中聽取對話

在音頻分析研究中，用於區分和提取多個聲源

產品特色

用戶通過看向目標說話者幾秒鐘來選擇想要聽到的聲音

使用 Scaper 工具包合成生成音頻混合

提供自包含的數據集和訓練用的 .jams 規範文件

支持即時語音提取和目標語音聽力模型的評估

提供了模型的檢查點，方便用戶進行訓練和評估

適用於嘈雜環境下的語音識別和提取

使用教程

下載並解壓提供的 .zip 文件到 data/ 目錄

運行命令以開始訓練過程

使用 Scaper 的 generate_from_jams 函數在 .jams 規範文件上生成音頻混合

下載並加載目標語音聽力模型的檢查點進行評估

根據需要調整模型參數以優化性能

在實際應用中，用戶只需看向目標說話者即可開始語音提取

精選AI產品推薦

Azure AI Studio - 語音服務

Azure AI Studio 語音服務

Azure AI Studio是微軟Azure提供的一套人工智能服務，其中包括語音服務。這些服務可能包括語音識別、語音合成、語音翻譯等功能，幫助開發者在他們的應用程序中集成語音相關的智能功能。

Whisper

Whisper 是一個通用的語音識別模型。它經過大量多樣化音頻的訓練，並且是一個多任務模型，可以進行多語言語音識別、語音翻譯和語種識別。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase