PixelPlayer
P
Pixelplayer
簡介 :
PixelPlayer是一個能夠通過觀看大量無標註視頻學會定位產生聲音的圖像區域並分離輸入聲音成一組表示每個像素聲音的組件的系統。我們的方法利用視覺和聽覺雙模態的自然同步特點,在不需要額外人工標註的情況下學習聯合解析聲音和圖像的模型。該系統使用大量包含不同樂器組合獨奏和二重奏演奏的訓練視頻進行訓練。對每個視頻沒有提供出現了哪些樂器、它們在哪裡以及它們是什麼聲音的監督。在測試階段,系統的輸入是一個展示不同樂器演奏的視頻和單聲道聽覺輸入。系統執行音頻視覺源分離和定位,將輸入聲音信號分離成N個聲音通道,每個通道對應不同的樂器類別。此外,系統可以定位聲音併為輸入視頻中的每個像素分配不同的音頻波形。
需求人群 :
["進行無監督的音頻視覺分離","分析視聽關係"]
總訪問量: 0
本站瀏覽量 : 87.5K
使用場景
PixelPlayer可用於分離混合音頻中的不同樂器聲音。
PixelPlayer可用於研究視覺和聽覺感知之間的關係。
PixelPlayer可用於探索不同像素區域對總體聽覺體驗的貢獻。
產品特色
音頻視覺源分離與定位
將聲音信號分離成表示每個像素聲音的組件
為輸入視頻的每個像素分配不同的音頻波形
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase