

Llasa 1B
紹介 :
Llasa-1Bは、香港科技大学音声研究室によって開発されたテキスト読み上げモデルです。LLaMAアーキテクチャを基盤とし、XCodec2コードブックの音声トークンを組み合わせることで、自然で滑らかな音声へのテキスト変換を実現しています。25万時間の中国語と英語の音声データで訓練されており、テキストからの音声生成に加え、指定の音声プロンプトを利用した合成も可能です。主な利点として、高品質な多言語音声の生成能力があり、オーディオブック、音声アシスタントなど、様々な音声合成シーンに適しています。本モデルはCC BY-NC-ND 4.0ライセンスを採用しており、商用利用は禁止されています。
ターゲットユーザー :
本モデルは、高品質な音声合成を必要とする開発者や研究者にとって適しており、音声アシスタント、オーディオブックアプリ、音声放送システムなどの開発に利用できます。
使用シナリオ
オーディオブックアプリ向けに、自然で滑らかな中国語と英語の音声コンテンツを生成する。
スマート音声アシスタントに高品質の音声合成機能を提供する。
教育ソフトウェアにおいて、生徒にテキストを読み上げることで学習を支援する。
製品特徴
中国語と英語のテキスト読み上げ合成に対応
音声プロンプトを利用してより自然な音声の生成が可能
LLaMAアーキテクチャに基づき、強力な言語理解能力を備える
大規模データによるトレーニングで、高品質な音声生成を実現
開発者による利用?拡張が容易なオープンソースコードとモデルファイルを提供
使用チュートリアル
1. XCodec2ライブラリをインストールし、バージョン0.1.3であることを確認します。
2. transformersライブラリを使用して、Llasa-1Bモデルとトークナイザーを読み込みます。
3. モデルとトークナイザーをGPUデバイスに配置して、計算速度を向上させます。
4. 入力テキストを作成し、モデルが受け入れ可能なテキストテンプレートにフォーマットします。
5. モデルを使用して音声トークンを生成し、XCodec2で音声波形にデコードします。
6. 生成された音声をWAVファイルとして保存し、再生または更なる処理を行います。
おすすめAI製品

Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
高品質新製品

Fish Audioテキスト読み上げ
テキスト読み上げ技術は、テキスト情報を音声に変換する技術であり、補助読書、音声アシスタント、オーディオブック制作など幅広い分野で活用されています。人間の自然な音声に似た合成音声により、情報取得の利便性を高め、特に視覚障碍者や目が使えない状況下で非常に役立ちます。
テキスト読み上げ音声
8.7M