语音生成

# 语音生成

VoiSpark

VoiSpark是一个AI语音生成平台，能生成逼真的文本转语音，克隆声音，并为视频、播客等定制独特AI声音。该平台具有100%免费试用。

文本转声音

Smallest AI

Smallest AI 是一家专注于提供实时 AI 服务的公司，旗下 Waves 和 Atoms 产品分别专注于生成高质量的 AI 语音和提供实时 AI 客服代理。Waves 能够实时生成任何口音、语言或情感的 AI 语音，适用于需要个性化语音交互的场景；Atoms 则通过 AI 与客户进行电话沟通，减轻企业客服负担。该技术的重要性在于能够帮助企业提升客户体验，同时降低人力成本。其定位是为企业提供高效、个性化的 AI 解决方案，具体价格未在页面中明确提及，但根据其服务性质推测可能为付费模式。

OCTAVE

OCTAVE (Omni-Capable Text and Voice Engine)是一个结合了前沿语言模型和语音系统能力的下一代语音语言模型。它能够从简短的描述性提示或录音中生成不仅仅是声音，还有个性（语言、口音、表达、潜在性格等），并且能够实时响应中生成多个交互的AI个性和声音。OCTAVE维持了类似大小的前沿大型语言模型（LLM）的能力，非常适合驱动与人类丰富沟通的AI系统，同时遵循详细指令，使用工具或控制界面。

hertz-dev

hertz-dev是Standard Intelligence开源的全双工、仅音频的变换器基础模型，拥有85亿参数。该模型代表了可扩展的跨模态学习技术，能够将单声道16kHz语音转换为8Hz潜在表示，具有1kbps的比特率，性能优于其他音频编码器。hertz-dev的主要优点包括低延迟、高效率和易于研究人员进行微调和构建。产品背景信息显示，Standard Intelligence致力于构建对全人类有益的通用智能，而hertz-dev是这一旅程的第一步。

模型训练与部署

LlamaVoice

LlamaVoice是一个基于羊驼模型的大型语音生成模型，它通过直接预测连续特征，提供了一种与传统依赖于离散语音码预测的向量量化模型相比更为流畅和高效的处理过程。该模型具有连续特征预测、变分自编码器(VAE)潜在特征预测、联合训练、先进采样策略和基于流的增强等关键特点。

CosyVoice

CosyVoice 是一个多语言的大型语音生成模型，它不仅支持多种语言的语音生成，还提供了从推理到训练再到部署的全栈能力。该模型在语音合成领域具有重要性，因为它能够生成自然流畅、接近真人的语音，适用于多种语言环境。CosyVoice 的背景信息显示，它是由 FunAudioLLM 团队开发，使用了 Apache-2.0 许可证。

Carteisa Sonic

Sonic是由Carteisa团队开发的低延迟语音模型，旨在为各种设备提供逼真的语音生成能力。该模型利用了创新的状态空间模型架构，以实现高分辨率音频和视频的高效、低延迟生成。Sonic模型的延迟仅为135毫秒，是同类模型中最快的。Carteisa团队专注于优化智能的效率，使它更快、更便宜、更易于访问。Sonic模型的发布，标志着实时对话式AI和长期记忆的计算平台的初步进展，预示着未来AI在实时游戏、客户支持等领域的新体验。

bilibot

bilibot是一个基于哔哩哔哩用户评论训练的本地聊天机器人，支持文字聊天和语音对话。它使用Qwen1.5-32B-Chat作为基础模型，并结合苹果的mlx-lm LORA项目进行微调。语音生成部分基于GPT-SoVITS项目，使用派蒙语音模型。该机器人可以快速生成对话内容，适用于需要智能对话系统的场合。

AI聊天机器人

Parler-TTS

Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音（TTS）模型，能够以给定说话者的风格（性别、音调、说话风格等）生成高质量、自然 sounding 的语音。它是基于 Dan Lyth 和 Simon King 发表的论文《Natural language guidance of high-fidelity text-to-speech with synthetic annotations》的工作复现，两位作者分别来自 Stability AI 和爱丁堡大学。与其他TTS模型不同，Parler-TTS 完全开源发布，包括数据集、预处理、训练代码和权重。功能包括：生成高质量且自然 sounding 的语音输出、灵活的使用和部署、提供丰富的注释语音数据集。定价：免费。

Donakosy

Donakosy是一款智能AI技术平台，为专业人士、内容创作者、图像设计、语音生成等提供全方位的AI服务。通过Chat GPT、AI和OpenAI技术，实现无缝的AI体验。

Ankara AI

Ankara AI是一款利用人工智能为视频生成叙述的应用程序。用户只需上传视频，选择语音，输入叙述提示，Ankara AI将完成剩下的工作！

自得语音

自得语音技术可通过简单的步骤创造出属于你的角色。类似GPT，可生成与真人无异的语音片段，在情感、音色和语速等方面与真人一致。自得语音支持快速定制角色，只需要上传一段语音即可立即生成属于你的语音角色。无需下载软件，可在浏览器上完成语音生成。同时提供API接口，方便开发者集成到自己的产品中。商用用户可享受7x24小时的技术支持。

Listnr AI

Listnr AI是一款由AI驱动的语音和视频生成工具。它提供900多种语音和142种语言选择，可以生成逼真的语音和视频内容。用户可以免费开始使用，并在需要时选择付费计划。Listnr AI适用于各种场景，包括生成视频、创建语音广告、制作音频文章、播客制作等。它提供透明的定价，用户可以根据自己的需求选择合适的付费计划。

Fluxon

Fluxon是一个超逼真的AI语音生成器，可以将文本转化为任何语言的超逼真声音。它可以在不到10分钟的示例音频中克隆任何声音。您可以在同一个音频文件中使用多个声音创建对话。还可以通过训练自定义声音来合成单一声音，创建嘴唇同步视频。Fluxon提供了REST API，可以将AI语音生成集成到您的应用程序中。它可以用于各种用途，如为营销和演示视频添加专业和逼真的配音，从文本生成清晰高质量的有声书，为NPC生成逼真的人声，为内容创建专业翻译，为聊天机器人创建更自然的声音，将任何文本内容自动转化为播客等。

文本转声音

ClearCypherAI

ClearCypherAI是一家总部位于美国的AI初创公司，致力于构建前沿的解决方案。我们的产品包括文本转语音（T2A）、语音转文本（A2T）和语音转语音（A2A），支持多语言、多模态、实时语音智能。我们还提供自然语言数据集、威胁评估、AI定制平台等服务。我们的产品具有高度定制性、先进的技术和优质的客户支持。

开发与工具

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase