

Kokoro Onnx
紹介 :
kokoro-onnxは、KokoroモデルとONNXランタイムに基づくテキスト読み上げ(TTS)プロジェクトです。英語に対応しており、フランス語、日本語、韓国語、中国語への対応も計画されています。macOS M1ではほぼリアルタイムの高速性能を実現し、ささやき声を含む様々な音声オプションを提供します。モデルは軽量で、約300MB(量子化後約80MB)です。このプロジェクトはGitHub上でオープンソースとして公開されており、MITライセンスを採用しているため、開発者は容易に統合して使用できます。
ターゲットユーザー :
主な対象ユーザーは、このモデルを利用してアプリケーションにテキスト読み上げ機能を追加したり、音声合成に関する研究開発を行う開発者や研究者です。オープンソースで軽量なため、高品質なTTS機能をプロジェクトに統合したいが、モデルを最初から構築したくない開発者にとって最適です。
使用シナリオ
モバイルアプリへの音声プロンプト機能の追加
スマートアシスタントデバイスへの統合による自然言語インタラクションの実現
音声合成研究における、新しい音声生成技術の探求
製品特徴
英語に対応(フランス語、日本語、韓国語、中国語にも対応予定)
macOS M1でほぼリアルタイムの高速性能を実現
ささやき声を含む様々な音声オプションを提供
軽量モデル(約300MB、量子化後約80MB)
ONNXランタイムベースのため、容易にデプロイおよび統合可能
サンプルスクリプトを提供し、ユーザーは簡単に使い始められます
使用チュートリアル
1. uv(推奨)をインストールするか、通常のPython環境を使用します。
2. 新しいプロジェクトフォルダを作成し、その中で`uv init -p 3.12`を実行してプロジェクトを初期化します。
3. `uv add`を使用してkokoro-onnxとsoundfileの依存関係を追加します。
4. `examples/save.py`の内容を`hello.py`にコピーします。
5. `kokoro-v0_19.onnx`と`voices.json`ファイルをダウンロードし、プロジェクトディレクトリに配置します。
6. `uv run hello.py`を実行してオーディオファイルを作成します。
おすすめAI製品

Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
高品質新製品

Fish Audioテキスト読み上げ
テキスト読み上げ技術は、テキスト情報を音声に変換する技術であり、補助読書、音声アシスタント、オーディオブック制作など幅広い分野で活用されています。人間の自然な音声に似た合成音声により、情報取得の利便性を高め、特に視覚障碍者や目が使えない状況下で非常に役立ちます。
テキスト読み上げ音声
8.7M