AudioSep
A
Audiosep
紹介 :
AudioSepは、自然言語クエリに基づくオープン領域の音声源分離モデルです。テキストエンコーダと分離モデルという2つの主要なコンポーネントで構成されています。大規模なマルチモーダルデータセットでAudioSepをトレーニングし、オーディオイベント分離、楽器分離、音声強調など、多くのタスクにおいてその能力を幅広く評価しました。AudioSepは強力な分離性能と印象的なゼロショット汎化能力を示し、オーディオのタイトルやテキストラベルをクエリとして使用することで、従来の音声クエリや言語クエリによる音声分離モデルを大きく凌駕します。本研究の再現性を確保するために、ソースコード、評価ベンチマーク、および事前学習済みモデルを公開します。
ターゲットユーザー :
音声分離分野に適用可能。音声処理、音声編集などの分野で使用できます。
総訪問数: 19.4M
最も高い割合の地域: US(29.22%)
ウェブサイト閲覧数 : 84.7K
使用シナリオ
AudioSepを使用して、オーディオからギターの音声を分離する
AudioSepを使用して、オーディオから人声を分離する
AudioSepを使用して、オーディオからピアノの音声を分離する
製品特徴
自然言語クエリに基づく音声源分離
オープン領域の音声概念分離に対応
オーディオイベント分離、楽器分離、音声強調に対応
強力な分離性能とゼロショット汎化能力を備える
おすすめAI製品
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase