SALMONN : SALMONN：音声?音声イベント?音楽に対応するオープンニューラルネットワークの大規模言語モデル

すべてのカテゴリ

SALMONN

SALMONN

SALMONN

AI音声認識 AI音声合成 #音声 #音声イベント #言語 #音楽 #大規模言語モデル通常製品オープンソース

紹介 :

SALMONNは、清華大学電子工学科とバイトダンス（ByteDance）が共同開発した大規模言語モデル（LLM）であり、音声、音声イベント、音楽入力に対応しています。音声または音声イベント入力のみに対応するモデルとは異なり、SALMONNは様々な音声入力を認識?理解することで、多言語音声認識?翻訳や音声?音声連想推論といった新たな能力を実現しています。これはLLMに「聴覚」と聴覚認知能力を与えることに相当し、SALMONNは聴覚を持つ人工汎用知能への重要な一歩となります。

ターゲットユーザー :

SALMONNは、音声認識、音声翻訳、音声処理などの分野に適用できます。

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 88.3K

使用シナリオ

入力：gunshots.wav,出力：…

入力：duck.wav,出力：…

入力：music.wav,出力：…

製品特徴

多言語音声認識

多言語音声翻訳

音声?音声連想推論

おすすめAI製品

GPT-SoVITS

GPT-SoVITS-WebUIは、強力なゼロショット音声変換とテキスト音声変換WebUIです。ゼロショットTTS、少サンプルTTS、クロスリンガルサポート、WebUIツールなどの機能を備えています。英語、日本語、中国語に対応しており、音声伴奏分離、自動トレーニングセット分割、中国語ASR、テキストアノテーションなどの統合ツールを提供し、初心者によるトレーニングデータセットとGPT/SoVITSモデルの作成を支援します。5秒の音声サンプルを入力するだけで、即時のテキスト音声変換を体験できます。また、わずか1分のトレーニングデータでモデルを微調整し、音声の類似度とリアルさを向上させることも可能です。環境準備、PythonとPyTorchのバージョン、クイックインストール、手動インストール、学習済みモデル、データセットフォーマット、TODO、謝辞などをサポートしています。

Clone-Voice

Clone-VoiceはWebインターフェースを備えた音声クローンツールです。あらゆる人間のトーンを使用して、テキストをそのトーンで話す音声に合成したり、ある音声のトーンを別のトーンに変換したりできます。中国語、英語、日本語、韓国語、フランス語、ドイツ語、イタリア語など16言語に対応しており、オンラインでマイクから音声を録音できます。テキスト読み上げと音声変換機能を搭載。NカードGPUが不要で、シンプルで使いやすい点が強みです。多言語対応で、音声録音も柔軟に行えます。現在、無料で利用できます。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase