Make An Audio 2 : 基于扩散模型的文本到音频生成技术

Make An Audio 2

Make-An-Audio 2

Make An Audio 2

AI音乐生成 AI音频生成 #文本到音频 #扩散模型 #大型语言模型 #音频合成普通产品开源

简介 :

Make-An-Audio 2是一种基于扩散模型的文本到音频生成技术，由浙江大学、字节跳动和香港中文大学的研究人员共同开发。该技术通过使用预训练的大型语言模型(LLMs)解析文本，优化了语义对齐和时间一致性，提高了生成音频的质量。它还设计了基于前馈Transformer的扩散去噪器，以改善变长音频生成的性能，并增强时间信息的提取。此外，通过使用LLMs将大量音频标签数据转换为音频文本数据集，解决了时间数据稀缺的问题。

需求人群 :

该技术的目标受众是音频合成领域的研究人员和开发者，以及需要高质量文本到音频转换的应用场景，如自动配音、有声读物制作等。Make-An-Audio 2通过其先进的技术，能够生成与文本内容语义对齐且时间一致的高质量音频，满足这些用户的需求。

总访问量： 67

占比最多地区： US(60.64%)

本站浏览量： 59.1K

使用场景

自动生成有声读物的背景音效和对话

为视频内容自动添加旁白和音效

创建虚拟角色的声音，用于游戏或动画

产品特色

使用预训练的大型语言模型(LLMs)解析文本，优化时间信息捕获

引入结构化文本编码器，辅助学习扩散去噪过程中的语义对齐

设计基于前馈Transformer的扩散去噪器，改善变长音频生成性能

利用LLMs增强和转换音频标签数据，缓解时间数据稀缺问题

在客观和主观指标上超越基线模型，显著提升时间信息理解、语义一致性和声音质量

使用教程

步骤1: 准备自然语言文本作为输入

步骤2: 使用Make-An-Audio 2的Text Encoder解析文本

步骤3: 结构化文本编码器辅助学习语义对齐

步骤4: 利用扩散去噪器生成音频

步骤5: 调整生成音频的长度和时间控制

步骤6: 根据需要修改结构化输入以精确控制时间

步骤7: 生成最终的音频输出

精选AI产品推荐

Suno AI

Suno AI是一款通过人工智能创作音乐和语音的产品。它利用先进的算法和数据模型，能够生成高质量的音乐和语音作品。Suno AI具有以下功能和优势：1. 创作多种风格的音乐，包括流行、古典、电子等；2. 生成自然流畅的语音，可用于语音合成、配音等场景；3. 提供丰富的音乐和语音效果，可根据用户需求进行定制；4. 界面简洁友好，操作简单易上手；5. 支持多种输出格式，方便用户在不同平台上使用。Suno AI的定价根据用户的使用情况而定，详情请访问官方网站。

Udio

Udio是一个音乐发现、创作和分享的平台。用户可以在这里发现新的音乐作品,上传自己的创作分享给他人,并与其他音乐爱好者互动交流。该平台提供免费使用,同时也有付费高级服务供选择。定位为专注于音乐创作和分享的社交平台。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase