Kokoro 82M : 一个拥有8200万参数的前沿文本到语音（TTS）模型。

文本转声音

Kokoro 82M

Kokoro-82M

Kokoro 82M

文本转声音 AI模型 #文本到语音 #语音合成 #开源模型 #高效计算普通产品开源

简介 :

Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音（TTS）模型。它具有8200万参数，使用Apache 2.0许可证开源。该模型在2024年12月25日发布了v0.19版本，并提供了10种独特的语音包。Kokoro-82M在TTS Spaces Arena中排名第一，显示出其在参数规模和数据使用上的高效性。它支持美国英语和英国英语，可用于生成高质量的语音输出。

需求人群 :

该模型适合需要高质量文本到语音转换的应用开发者，如语音助手、有声读物制作、语音播报系统等。对于希望在资源受限的环境中实现高效语音合成的开发者来说，Kokoro-82M是一个理想的选择。

总访问量： 29.7M

占比最多地区： US(17.94%)

本站浏览量： 121.7K

使用场景

为智能语音助手提供自然语言的语音输出

制作有声读物，将文本内容转换为语音朗读

在新闻播报系统中自动将新闻稿转换为语音播报

产品特色

支持美国英语和英国英语的文本到语音转换

提供多种独特的语音包，可生成不同风格的语音

在少量参数和数据下实现高质量的语音合成

可通过ONNX格式进行高效部署

提供易于使用的API和文档，方便开发者集成

使用教程

1. 安装依赖：在Google Colab中运行，安装必要的库和工具，如espeak-ng、phonemizer等。

2. 克隆模型仓库：从Hugging Face克隆Kokoro-82M模型仓库。

3. 构建模型并加载默认语音包：使用提供的脚本构建模型，并加载所需的语音包。

4. 生成语音：调用generate函数，传入文本和语音包，生成24khz的音频和使用的音素。

5. 播放音频并查看音素：使用IPython.display播放生成的音频，并打印输出的音素。

精选AI产品推荐

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。

Fish Audio文本转语音

Fish Audio文本转语音

文本转语音技术是一种将文本信息转换为语音的技术，广泛应用于辅助阅读、语音助手、有声读物制作等领域。它通过模拟人类语音，提高了信息获取的便捷性，尤其对视力障碍者或在无法使用眼睛阅读的情况下非常有帮助。

文本转声音

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase