Make-An-Audio 2
M
Make An Audio 2
簡介 :
Make-An-Audio 2是一種基於擴散模型的文本到音頻生成技術,由浙江大學、字節跳動和香港中文大學的研究人員共同開發。該技術通過使用預訓練的大型語言模型(LLMs)解析文本,優化了語義對齊和時間一致性,提高了生成音頻的質量。它還設計了基於前饋Transformer的擴散去噪器,以改善變長音頻生成的性能,並增強時間信息的提取。此外,通過使用LLMs將大量音頻標籤數據轉換為音頻文本數據集,解決了時間數據稀缺的問題。
需求人群 :
該技術的目標受眾是音頻合成領域的研究人員和開發者,以及需要高質量文本到音頻轉換的應用場景,如自動配音、有聲讀物製作等。Make-An-Audio 2通過其先進的技術,能夠生成與文本內容語義對齊且時間一致的高質量音頻,滿足這些用戶的需求。
總訪問量: 67
佔比最多地區: US(60.64%)
本站瀏覽量 : 54.6K
使用場景
自動生成有聲讀物的背景音效和對話
為視頻內容自動添加旁白和音效
創建虛擬角色的聲音,用於遊戲或動畫
產品特色
使用預訓練的大型語言模型(LLMs)解析文本,優化時間信息捕獲
引入結構化文本編碼器,輔助學習擴散去噪過程中的語義對齊
設計基於前饋Transformer的擴散去噪器,改善變長音頻生成性能
利用LLMs增強和轉換音頻標籤數據,緩解時間數據稀缺問題
在客觀和主觀指標上超越基線模型,顯著提升時間信息理解、語義一致性和聲音質量
使用教程
步驟1: 準備自然語言文本作為輸入
步驟2: 使用Make-An-Audio 2的Text Encoder解析文本
步驟3: 結構化文本編碼器輔助學習語義對齊
步驟4: 利用擴散去噪器生成音頻
步驟5: 調整生成音頻的長度和時間控制
步驟6: 根據需要修改結構化輸入以精確控制時間
步驟7: 生成最終的音頻輸出
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase