Llasa-1B
L
Llasa 1B
紹介 :
Llasa-1Bは、香港科技大学音声研究室によって開発されたテキスト読み上げモデルです。LLaMAアーキテクチャを基盤とし、XCodec2コードブックの音声トークンを組み合わせることで、自然で滑らかな音声へのテキスト変換を実現しています。25万時間の中国語と英語の音声データで訓練されており、テキストからの音声生成に加え、指定の音声プロンプトを利用した合成も可能です。主な利点として、高品質な多言語音声の生成能力があり、オーディオブック、音声アシスタントなど、様々な音声合成シーンに適しています。本モデルはCC BY-NC-ND 4.0ライセンスを採用しており、商用利用は禁止されています。
ターゲットユーザー :
本モデルは、高品質な音声合成を必要とする開発者や研究者にとって適しており、音声アシスタント、オーディオブックアプリ、音声放送システムなどの開発に利用できます。
総訪問数: 26.1M
最も高い割合の地域: US(17.94%)
ウェブサイト閲覧数 : 60.2K
使用シナリオ
オーディオブックアプリ向けに、自然で滑らかな中国語と英語の音声コンテンツを生成する。
スマート音声アシスタントに高品質の音声合成機能を提供する。
教育ソフトウェアにおいて、生徒にテキストを読み上げることで学習を支援する。
製品特徴
中国語と英語のテキスト読み上げ合成に対応
音声プロンプトを利用してより自然な音声の生成が可能
LLaMAアーキテクチャに基づき、強力な言語理解能力を備える
大規模データによるトレーニングで、高品質な音声生成を実現
開発者による利用?拡張が容易なオープンソースコードとモデルファイルを提供
使用チュートリアル
1. XCodec2ライブラリをインストールし、バージョン0.1.3であることを確認します。
2. transformersライブラリを使用して、Llasa-1Bモデルとトークナイザーを読み込みます。
3. モデルとトークナイザーをGPUデバイスに配置して、計算速度を向上させます。
4. 入力テキストを作成し、モデルが受け入れ可能なテキストテンプレートにフォーマットします。
5. モデルを使用して音声トークンを生成し、XCodec2で音声波形にデコードします。
6. 生成された音声をWAVファイルとして保存し、再生または更なる処理を行います。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase