

SALMONN
紹介 :
SALMONNは、清華大学電子工学科とバイトダンス(ByteDance)が共同開発した大規模言語モデル(LLM)であり、音声、音声イベント、音楽入力に対応しています。音声または音声イベント入力のみに対応するモデルとは異なり、SALMONNは様々な音声入力を認識?理解することで、多言語音声認識?翻訳や音声?音声連想推論といった新たな能力を実現しています。これはLLMに「聴覚」と聴覚認知能力を与えることに相当し、SALMONNは聴覚を持つ人工汎用知能への重要な一歩となります。
ターゲットユーザー :
SALMONNは、音声認識、音声翻訳、音声処理などの分野に適用できます。
使用シナリオ
入力:gunshots.wav,出力:…
入力:duck.wav,出力:…
入力:music.wav,出力:…
製品特徴
多言語音声認識
多言語音声翻訳
音声?音声連想推論
おすすめAI製品

GPT SoVITS
GPT-SoVITS-WebUIは、強力なゼロショット音声変換とテキスト音声変換WebUIです。ゼロショットTTS、少サンプルTTS、クロスリンガルサポート、WebUIツールなどの機能を備えています。英語、日本語、中国語に対応しており、音声伴奏分離、自動トレーニングセット分割、中国語ASR、テキストアノテーションなどの統合ツールを提供し、初心者によるトレーニングデータセットとGPT/SoVITSモデルの作成を支援します。5秒の音声サンプルを入力するだけで、即時のテキスト音声変換を体験できます。また、わずか1分のトレーニングデータでモデルを微調整し、音声の類似度とリアルさを向上させることも可能です。環境準備、PythonとPyTorchのバージョン、クイックインストール、手動インストール、学習済みモデル、データセットフォーマット、TODO、謝辞などをサポートしています。
AI音声合成
5.7M

Clone Voice
Clone-VoiceはWebインターフェースを備えた音声クローンツールです。あらゆる人間のトーンを使用して、テキストをそのトーンで話す音声に合成したり、ある音声のトーンを別のトーンに変換したりできます。中国語、英語、日本語、韓国語、フランス語、ドイツ語、イタリア語など16言語に対応しており、オンラインでマイクから音声を録音できます。テキスト読み上げと音声変換機能を搭載。NカードGPUが不要で、シンプルで使いやすい点が強みです。多言語対応で、音声録音も柔軟に行えます。現在、無料で利用できます。
AI音声合成
3.6M