Kokoro 82M : 一個擁有8200萬參數的前沿文本到語音（TTS）模型。

文本轉聲音

Kokoro 82M

Kokoro-82M

Kokoro 82M

文本轉聲音 AI模型 #文本到語音 #語音合成 #開源模型 #高效計算普通產品開源

簡介 :

Kokoro-82M是一個由hexgrad創建並託管在Hugging Face上的文本到語音（TTS）模型。它具有8200萬參數，使用Apache 2.0許可證開源。該模型在2024年12月25日發佈了v0.19版本，並提供了10種獨特的語音包。Kokoro-82M在TTS Spaces Arena中排名第一，顯示出其在參數規模和數據使用上的高效性。它支持美國英語和英國英語，可用於生成高質量的語音輸出。

需求人群 :

該模型適合需要高質量文本到語音轉換的應用開發者，如語音助手、有聲讀物製作、語音播報系統等。對於希望在資源受限的環境中實現高效語音合成的開發者來說，Kokoro-82M是一個理想的選擇。

總訪問量： 29.7M

佔比最多地區： US(17.94%)

本站瀏覽量： 118.4K

使用場景

為智能語音助手提供自然語言的語音輸出

製作有聲讀物，將文本內容轉換為語音朗讀

在新聞播報系統中自動將新聞稿轉換為語音播報

產品特色

支持美國英語和英國英語的文本到語音轉換

提供多種獨特的語音包，可生成不同風格的語音

在少量參數和數據下實現高質量的語音合成

可通過ONNX格式進行高效部署

提供易於使用的API和文檔，方便開發者集成

使用教程

1. 安裝依賴：在Google Colab中運行，安裝必要的庫和工具，如espeak-ng、phonemizer等。

2. 克隆模型倉庫：從Hugging Face克隆Kokoro-82M模型倉庫。

3. 構建模型並加載默認語音包：使用提供的腳本構建模型，並加載所需的語音包。

4. 生成語音：調用generate函數，傳入文本和語音包，生成24khz的音頻和使用的音素。

5. 播放音頻並查看音素：使用IPython.display播放生成的音頻，並打印輸出的音素。

精選AI產品推薦

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。

Fish Audio文本轉語音

Fish Audio文本轉語音

文本轉語音技術是一種將文本信息轉換為語音的技術，廣泛應用於輔助閱讀、語音助手、有聲讀物製作等領域。它通過模擬人類語音，提高了信息獲取的便捷性，尤其對視力障礙者或在無法使用眼睛閱讀的情況下非常有幫助。

文本轉聲音

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase