Sherpa Onnx : 様々な音声認識と音声合成機能をサポートするオープンソースプロジェクト

すべてのカテゴリ

Sherpa Onnx

sherpa-onnx

Sherpa Onnx

AI音声認識 AI音声合成 #音声認識 #音声合成 #機械学習 #ONNX Runtime 通常製品オープンソース

紹介 :

sherpa-onnxは、次世代Kaldiに基づいた音声認識と音声合成プロジェクトです。ONNX Runtimeを用いて推論を行い、音声テキスト変換（ASR）、テキスト音声変換（TTS）、話者認識、話者照合、言語認識、キーワード検出など、様々な音声関連機能をサポートしています。組み込みシステム、Android、iOS、Raspberry Pi、RISC-V、サーバーなど、幅広いプラットフォームとOSに対応しています。

ターゲットユーザー :

sherpa-onnxは、様々なプラットフォームで音声認識と音声合成機能を実装する必要がある開発者や研究者にとって最適です。C++、C、Python、Go、C#、Java、Kotlin、JavaScript、Swiftなど、様々なAPIを提供しており、様々なバックグラウンドを持つ開発者が容易に使用できます。

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 115.9K

使用シナリオ

Androidデバイスでsherpa-onnxを用いてリアルタイムの音声テキスト変換を実現する。

サーバー上でsherpa-onnxを用いて一括音声認識タスクを実行する。

組み込みシステムでsherpa-onnxを用いてキーワード検出を行う。

製品特徴

ストリーミングと非ストリーミングの音声認識（ASR）をサポート。

テキスト音声変換（TTS）をサポート。

話者認識をサポート。

話者照合をサポート。

言語認識をサポート。

オーディオタグ付けとキーワード検出をサポート。

様々なプラットフォームとOSをサポート。

使用チュートリアル

1. sherpa-onnxプロジェクトをローカルにクローンまたはダウンロードします。

2. 必要とする機能に合わせて適切なAPIとプラットフォームを選択します。

3. ドキュメントに従って環境と依存関係を設定します。

4. 事前学習済みモデルを読み込み、テストを実行します。

5. 実際のニーズに合わせてパラメータを調整し、パフォーマンスを最適化します。

6. アプリケーションに統合し、音声認識または音声合成機能を実現します。

おすすめAI製品

GPT-SoVITS

GPT-SoVITS-WebUIは、強力なゼロショット音声変換とテキスト音声変換WebUIです。ゼロショットTTS、少サンプルTTS、クロスリンガルサポート、WebUIツールなどの機能を備えています。英語、日本語、中国語に対応しており、音声伴奏分離、自動トレーニングセット分割、中国語ASR、テキストアノテーションなどの統合ツールを提供し、初心者によるトレーニングデータセットとGPT/SoVITSモデルの作成を支援します。5秒の音声サンプルを入力するだけで、即時のテキスト音声変換を体験できます。また、わずか1分のトレーニングデータでモデルを微調整し、音声の類似度とリアルさを向上させることも可能です。環境準備、PythonとPyTorchのバージョン、クイックインストール、手動インストール、学習済みモデル、データセットフォーマット、TODO、謝辞などをサポートしています。

Clone-Voice

Clone-VoiceはWebインターフェースを備えた音声クローンツールです。あらゆる人間のトーンを使用して、テキストをそのトーンで話す音声に合成したり、ある音声のトーンを別のトーンに変換したりできます。中国語、英語、日本語、韓国語、フランス語、ドイツ語、イタリア語など16言語に対応しており、オンラインでマイクから音声を録音できます。テキスト読み上げと音声変換機能を搭載。NカードGPUが不要で、シンプルで使いやすい点が強みです。多言語対応で、音声録音も柔軟に行えます。現在、無料で利用できます。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase