Sketch2sound : 通過時間變化信號和聲音模仿生成可控音頻的模型

Sketch2sound

音頻生成 AI模型 #音頻生成 #聲音模仿 #文本到音頻 #音樂創作 #聲音設計普通產品商用

簡介 :

Sketch2Sound是一個生成音頻的模型，能夠從一組可解釋的時間變化控制信號（響度、亮度、音高）以及文本提示中創建高質量的聲音。該模型能夠在任何文本到音頻的潛在擴散變換器（DiT）上實現，並且只需要40k步的微調和每個控制一個單獨的線性層，使其比現有的方法如ControlNet更加輕量級。Sketch2Sound的主要優點包括從聲音模仿中合成任意聲音的能力，以及在保持輸入文本提示和音頻質量的同時，遵循輸入控制的大致意圖。這使得聲音藝術家能夠結合文本提示的語義靈活性和聲音手勢或聲音模仿的表現力和精確度來創造聲音。

需求人群 :

目標受眾為聲音藝術家、音樂製作人和音頻工程師。Sketch2Sound適合他們，因為它提供了一種新的方式來創造和控制聲音，結合了文本提示的靈活性和聲音模仿的精確度，從而能夠創造出更加豐富和個性化的聲音效果。

總訪問量： 671

本站瀏覽量： 64.0K

使用場景

案例一：音樂製作人使用Sketch2Sound根據‘森林環境’的文本提示和聲音模仿生成環境音樂。

案例二：聲音設計師利用Sketch2Sound根據‘賽車’的文本提示和聲音模仿創建動態的賽車音效。

案例三：音頻工程師通過Sketch2Sound合成‘低音鼓，小軍鼓’的聲音，根據音高區域自動放置小軍鼓和低音鼓。

產品特色

- 從聲音模仿中合成任意聲音：Sketch2Sound能夠根據聲音模仿或參考聲音形狀合成任意聲音。

- 可解釋的時間變化控制信號：模型使用響度、亮度和音高作為控制信號，以生成音頻。

- 文本提示支持：Sketch2Sound能夠根據文本提示生成符合語義的聲音。