Audiosep : 基于自然语言查询的开放领域音频源分离模型

Audiosep

AudioSep

Audiosep

AI音频编辑 AI音频增强器 #音频分离 #自然语言查询 #音频处理 #音频编辑普通产品商用

简介 :

AudioSep是一种基于自然语言查询的开放领域音频源分离模型。它由文本编码器和分离模型两个关键组件组成。我们在大规模多模态数据集上训练AudioSep，并在许多任务上广泛评估其能力，包括音频事件分离、乐器分离和语音增强。AudioSep表现出强大的分离性能和令人印象深刻的零样本泛化能力，使用音频标题或文本标签作为查询，大大优于以前的音频查询和语言查询声音分离模型。为了保证本工作的可重复性，我们将发布源代码、评估基准和预训练模型。

需求人群 :

适用于音频分离领域，可用于音频处理、音频编辑等领域

总访问量： 20.4M

占比最多地区： US(29.22%)

本站浏览量： 91.6K

使用场景

使用AudioSep分离音频中的吉他声音

使用AudioSep分离音频中的人声

使用AudioSep分离音频中的钢琴声音

产品特色

基于自然语言查询的音频源分离

支持开放领域音频概念分离

支持音频事件分离、乐器分离和语音增强

具有强大的分离性能和零样本泛化能力

精选AI产品推荐

Resemble Enhance

Resemble Enhance

resemble-enhance是一个支持语音降噪与增强的AI模型,可以高效去除背景噪声,还原语音细节,提升语音质量。该模型包含降噪模块和增强模块,通过深度学习算法实现语音信号与噪声分离,以及语音品质改善。模型针对高保真44.1kHz语音进行训练,可以输出高品质增强语音。用户可以通过pip安装使用,也可以基于提供的代码定制训练自己的模型。该模型功能强大,使用简单,是提升语音质量的首选方案。

AI音频增强器

分离人声

这个免费的在线应用程序通过创建卡拉 OK 来帮助去除歌曲中的人声。当你选择了一首歌曲，人工智能将把人声从器乐中分离出来。你将得到两条音轨 - 你的歌曲的卡拉 OK 版本（没有人声）和阿卡贝拉版本（无伴奏纯人声）。尽管此服务复杂且成本高，但你仍然可以完全免费使用它。处理通常需要 10 秒左右。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase