Audiosep : 基於自然語言查詢的開放領域音頻源分離模型

Audiosep

AudioSep

Audiosep

AI音頻編輯 AI音頻增強器 #音頻分離 #自然語言查詢 #音頻處理 #音頻編輯普通產品商用

簡介 :

AudioSep是一種基於自然語言查詢的開放領域音頻源分離模型。它由文本編碼器和分離模型兩個關鍵組件組成。我們在大規模多模態數據集上訓練AudioSep，並在許多任務上廣泛評估其能力，包括音頻事件分離、樂器分離和語音增強。AudioSep表現出強大的分離性能和令人印象深刻的零樣本泛化能力，使用音頻標題或文本標籤作為查詢，大大優於以前的音頻查詢和語言查詢聲音分離模型。為了保證本工作的可重複性，我們將發佈源代碼、評估基準和預訓練模型。

需求人群 :

適用於音頻分離領域，可用於音頻處理、音頻編輯等領域

總訪問量： 20.4M

佔比最多地區： US(29.22%)

本站瀏覽量： 87.8K

使用場景

使用AudioSep分離音頻中的吉他聲音

使用AudioSep分離音頻中的人聲

使用AudioSep分離音頻中的鋼琴聲音

產品特色

基於自然語言查詢的音頻源分離

支持開放領域音頻概念分離

支持音頻事件分離、樂器分離和語音增強

具有強大的分離性能和零樣本泛化能力

精選AI產品推薦

Resemble Enhance

Resemble Enhance

resemble-enhance是一個支持語音降噪與增強的AI模型,可以高效去除背景噪聲,還原語音細節,提升語音質量。該模型包含降噪模塊和增強模塊,通過深度學習算法實現語音信號與噪聲分離,以及語音品質改善。模型針對高保真44.1kHz語音進行訓練,可以輸出高品質增強語音。用戶可以通過pip安裝使用,也可以基於提供的代碼定製訓練自己的模型。該模型功能強大,使用簡單,是提升語音質量的首選方案。

AI音頻增強器

分離人聲

這個免費的在線應用程序通過創建卡拉 OK 來幫助去除歌曲中的人聲。當你選擇了一首歌曲，人工智能將把人聲從器樂中分離出來。你將得到兩條音軌 - 你的歌曲的卡拉 OK 版本（沒有人聲）和阿卡貝拉版本（無伴奏純人聲）。儘管此服務複雜且成本高，但你仍然可以完全免費使用它。處理通常需要 10 秒左右。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase