

Stable Audio Open 1.0
紹介 :
Stable Audio Open 1.0は、オートエンコーダ、T5ベースのテキスト埋め込み、トランスフォーマーベースの拡散モデルを利用して、最長47秒のステレオオーディオを生成するAIモデルです。テキストプロンプトから音楽やオーディオを生成し、生成AIモデルの現在の能力を探求するための研究や実験をサポートします。このモデルはFreesoundとFree Music Archive (FMA)のデータセットで訓練されており、データの多様性と著作権の合法性を確保しています。
ターゲットユーザー :
この製品は、音楽プロデューサー、オーディオエンジニア、研究者、そしてAI音楽生成に関心のある個人やチームに適しています。アーティストは新しい楽曲制作のためのツールとして活用でき、研究者は生成AIモデルの探求と改良のためのプラットフォームとして利用できます。
使用シナリオ
音楽プロデューサーは、このモデルを使用してテキストプロンプトに基づいて新しい背景音楽を生成します。
研究者は、このモデルを使用して生成AIモデルの現状を分析し、改良します。
オーディオエンジニアは、このモデルを使用して、さまざまなテキストプロンプトにおけるサウンドエフェクトの生成を探求します。
製品特徴
最長47秒のステレオオーディオを生成します。
44.1kHzのオーディオサンプリングレートに対応しています。
テキストプロンプトに基づいた音楽とオーディオの生成が可能です。
オートエンコーダを使用して波形を管理可能なシーケンス長に圧縮します。
T5ベースのテキスト埋め込み技術を用いてテキスト条件処理を行います。
拡散モデルはオートエンコーダの潜在空間で動作します。
使用チュートリアル
必要なstable-audio-toolsライブラリをダウンロードしてインストールします。
提供されているコードサンプルを使用して、事前学習済みモデルをダウンロードします。
テキストと時間条件を設定し、オーディオの開始時間と総時間を定義します。
モデルを呼び出して拡散条件オーディオを生成します。
生成されたオーディオを並べ替え、ピーク正規化、クリッピングを行い、int16形式に変換してファイルとして保存します。
おすすめAI製品

Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
中国語精選

Liblibai
LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。
AIモデル
6.9M