Llasa 1B : Llasa-1B 是一個基於 LLaMA 的文本轉語音 (TTS) 模型，支持中英文語音合成。

文本轉聲音

Llasa 1B

Llasa-1B

Llasa 1B

文本轉聲音 AI模型 #文本轉語音 #語音合成 #人工智能 #中英文支持 #開源模型普通產品開源

簡介 :

Llasa-1B 是一個由香港科技大學音頻實驗室開發的文本轉語音模型。它基於 LLaMA 架構，通過結合 XCodec2 代碼本中的語音標記，能夠將文本轉換為自然流暢的語音。該模型在 25 萬小時的中英文語音數據上進行了訓練，支持從純文本生成語音，也可以利用給定的語音提示進行合成。其主要優點是能夠生成高質量的多語言語音，適用於多種語音合成場景，如有聲讀物、語音助手等。該模型採用 CC BY-NC-ND 4.0 許可證，禁止商業用途。

需求人群 :

該模型適合需要高質量語音合成的開發者和研究人員，可用於開發語音助手、有聲讀物應用、語音播報系統等場景。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 74.2K

使用場景

為有聲讀物應用生成自然流暢的中文和英文語音內容。

為智能語音助手提供高質量的語音合成能力。

在教育軟件中為學生朗讀文本內容，輔助學習。

產品特色

支持中英文文本轉語音合成

可以利用語音提示生成更自然的語音

基於 LLaMA 架構，具備強大的語言理解能力

支持大規模數據訓練，生成高質量語音

提供開源代碼和模型文件，便於開發者使用和擴展

使用教程

1. 安裝 XCodec2 庫，確保版本為 0.1.3。

2. 使用 transformers 庫加載 Llasa-1B 模型和分詞器。

3. 將模型和分詞器部署到 GPU 設備，提升運算速度。

4. 編寫輸入文本，格式化為模型可接受的文本模板。

5. 使用模型生成語音標記，並通過 XCodec2 解碼為語音波形。

6. 將生成的語音保存為 WAV 文件，進行播放或進一步處理。

精選AI產品推薦

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。

Fish Audio文本轉語音

Fish Audio文本轉語音

文本轉語音技術是一種將文本信息轉換為語音的技術，廣泛應用於輔助閱讀、語音助手、有聲讀物製作等領域。它通過模擬人類語音，提高了信息獲取的便捷性，尤其對視力障礙者或在無法使用眼睛閱讀的情況下非常有幫助。

文本轉聲音

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase