AudioSep
A
Audiosep
簡介 :
AudioSep是一種基於自然語言查詢的開放領域音頻源分離模型。它由文本編碼器和分離模型兩個關鍵組件組成。我們在大規模多模態數據集上訓練AudioSep,並在許多任務上廣泛評估其能力,包括音頻事件分離、樂器分離和語音增強。AudioSep表現出強大的分離性能和令人印象深刻的零樣本泛化能力,使用音頻標題或文本標籤作為查詢,大大優於以前的音頻查詢和語言查詢聲音分離模型。為了保證本工作的可重複性,我們將發佈源代碼、評估基準和預訓練模型。
需求人群 :
適用於音頻分離領域,可用於音頻處理、音頻編輯等領域
總訪問量: 20.4M
佔比最多地區: US(29.22%)
本站瀏覽量 : 87.8K
使用場景
使用AudioSep分離音頻中的吉他聲音
使用AudioSep分離音頻中的人聲
使用AudioSep分離音頻中的鋼琴聲音
產品特色
基於自然語言查詢的音頻源分離
支持開放領域音頻概念分離
支持音頻事件分離、樂器分離和語音增強
具有強大的分離性能和零樣本泛化能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase