Make An Audio 2 : 基於擴散模型的文本到音頻生成技術

Make An Audio 2

Make-An-Audio 2

Make An Audio 2

AI音樂生成 AI音頻生成 #文本到音頻 #擴散模型 #大型語言模型 #音頻合成普通產品開源

簡介 :

Make-An-Audio 2是一種基於擴散模型的文本到音頻生成技術，由浙江大學、字節跳動和香港中文大學的研究人員共同開發。該技術通過使用預訓練的大型語言模型(LLMs)解析文本，優化了語義對齊和時間一致性，提高了生成音頻的質量。它還設計了基於前饋Transformer的擴散去噪器，以改善變長音頻生成的性能，並增強時間信息的提取。此外，通過使用LLMs將大量音頻標籤數據轉換為音頻文本數據集，解決了時間數據稀缺的問題。

需求人群 :

該技術的目標受眾是音頻合成領域的研究人員和開發者，以及需要高質量文本到音頻轉換的應用場景，如自動配音、有聲讀物製作等。Make-An-Audio 2通過其先進的技術，能夠生成與文本內容語義對齊且時間一致的高質量音頻，滿足這些用戶的需求。

總訪問量： 67

佔比最多地區： US(60.64%)

本站瀏覽量： 54.6K

使用場景

自動生成有聲讀物的背景音效和對話

為視頻內容自動添加旁白和音效

創建虛擬角色的聲音，用於遊戲或動畫

產品特色

使用預訓練的大型語言模型(LLMs)解析文本，優化時間信息捕獲

引入結構化文本編碼器，輔助學習擴散去噪過程中的語義對齊

設計基於前饋Transformer的擴散去噪器，改善變長音頻生成性能

利用LLMs增強和轉換音頻標籤數據，緩解時間數據稀缺問題

在客觀和主觀指標上超越基線模型，顯著提升時間信息理解、語義一致性和聲音質量

使用教程

步驟1: 準備自然語言文本作為輸入

步驟2: 使用Make-An-Audio 2的Text Encoder解析文本

步驟3: 結構化文本編碼器輔助學習語義對齊

步驟4: 利用擴散去噪器生成音頻

步驟5: 調整生成音頻的長度和時間控制

步驟6: 根據需要修改結構化輸入以精確控制時間

步驟7: 生成最終的音頻輸出

精選AI產品推薦

Suno AI

Suno AI是一款通過人工智能創作音樂和語音的產品。它利用先進的算法和數據模型，能夠生成高質量的音樂和語音作品。Suno AI具有以下功能和優勢：1. 創作多種風格的音樂，包括流行、古典、電子等；2. 生成自然流暢的語音，可用於語音合成、配音等場景；3. 提供豐富的音樂和語音效果，可根據用戶需求進行定製；4. 界面簡潔友好，操作簡單易上手；5. 支持多種輸出格式，方便用戶在不同平臺上使用。Suno AI的定價根據用戶的使用情況而定，詳情請訪問官方網站。

Udio

Udio是一個音樂發現、創作和分享的平臺。用戶可以在這裡發現新的音樂作品,上傳自己的創作分享給他人,並與其他音樂愛好者互動交流。該平臺提供免費使用,同時也有付費高級服務供選擇。定位為專注於音樂創作和分享的社交平臺。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase