语音

# 语音

Orate

Orate 是一个强大的 AI 语音工具包，能够将文本转换为逼真的语音，也可以将语音转换为文本，支持多种主流 AI 服务提供商。其主要优点是提供了一个统一的 API 接口，方便开发者快速集成和使用。该工具包适用于需要语音交互功能的应用开发，例如智能语音助手、语音播报系统等。其价格和具体定位尚未明确，但从其功能和社区反馈来看，具有较高的实用性和开发价值。

MiniCPM-o

MiniCPM-o 2.6 是OpenBMB团队开发的最新多模态大型语言模型（MLLM），具有8B参数，能够在手机等端侧设备上实现高质量的视觉、语音和多模态直播功能。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，采用端到端的方式训练，性能与GPT-4o-202405相当。其主要优点包括领先的视觉能力、先进的语音能力、强大的多模态直播能力、强大的OCR能力以及优越的效率。该模型免费开源，适用于学术研究和商业用途。

Outspeed

Outspeed是一个为构建快速、实时语音和视频AI应用提供网络和推理基础设施的平台。它由Google和MIT的工程师开发，旨在为实时AI应用提供直观且强大的工具，无论是构建下一个大型应用还是扩展现有解决方案，Outspeed都能帮助用户更快、更有信心地进行创新。

开发与工具

Daily Bots

Daily Bots是一个开源云平台，专注于提供超低延迟的语音和视频人工智能服务。它支持开发者构建和托管实时的全球基础设施上的代理，并利用快速增长的开源实时框架。该平台拥有全球实时云，提供5亿终端用户的13毫秒首跳延迟，符合SOC 2、HIPAA和GDPR标准。此外，Daily Bots提供了电话和工作流程的一站式企业连接解决方案，以及完整的PSTN和SIP堆栈。

开发与工具

Pipecat

Pipecat是一个开源框架，用于构建语音和多模态对话代理，如个人教练、会议助手、儿童故事玩具、客户支持机器人、接待流程和机智的社交伴侣。它支持本地运行，并可迁移到云端，集成了多种AI服务和传输方式，具有高度的可定制性和扩展性。

聊天机器人

easywithai.com

Easy With AI是一个拥有互联网上最大的AI工具和资源收藏的平台。您可以在50多个不同的类别中查找和搜索AI工具。Easy With AI为各种用户提供了便利和丰富的AI工具资源，包括AI写作助手、社交媒体工具、电子邮件工具、AI内容检测工具、客户服务工具、网站建设工具、电子商务工具、图像工具、音频工具、视频工具、音乐生成器、视频生成器、播客工具、演示制作工具、设计工具、直播工具、聊天机器人、语音工具、移动应用、转录工具、会议助手、建筑工具、生产力工具、教育工具、AI Chrome扩展和更多。您可以根据您的需求和兴趣，在Easy With AI上找到适合您的AI工具。

Ad Auris

Ad Auris是一款能够将文章转换为语音并播放的应用。用户可以随时随地听取自己感兴趣的文章内容，同时支持保存到平台如Spotify。该应用定位于提升用户的阅读效率和便利性，使用户能够在忙碌的生活中享受阅读的乐趣。

文本转声音

SpeechGPT

SpeechGPT是一种多模态语言模型，具有内在的跨模态对话能力。它能够感知并生成多模态内容，遵循多模态人类指令。SpeechGPT-Gen是一种扩展了信息链的语音生成模型。SpeechAgents是一种具有多模态多代理系统的人类沟通模拟。SpeechTokenizer是一种统一的语音标记器，适用于语音语言模型。这些模型和数据集的发布日期和相关信息均可在官方网站上找到。

Merlin API Platform

Merlin API Platform

Merlin提供统一的API和SDK,用于将LLM/LLVM快速集成到生产应用中。性能高、可靠、易于使用。它可以在5分钟内将Google的Gemini SDK集成进去。提供20多个AI模型,无需管理多个API密钥,没有速率限制,也不必担心记忆窗口或记号计算。所有模型都遵循OpenAI API结构,误差率比OpenAI低10倍,零宕机时间。

Talk to GPT

Talk to GPT是一个Chrome插件，使用语音与ChatGPT进行交流。它通过分析你的语音，将你说的话转录成文字，并发送给ChatGPT。ChatGPT能够以100多种语言回答你的问题。插件还支持自动校正和语言水平选择。定价请查看官方网站。

narrator

narrator是一款Python应用，通过使用OpenAI和ElevenLabs的API，能够让David Attenborough来为您的生活进行解说。用户需要设置相关的API密钥和语音ID，并运行webcam捕捉和narrator两个Python脚本即可。

Personal Voice

Personal Voice 是一款定制个人化语音体验的工具。它允许用户通过提供一个 1 分钟的语音样本来复制自己的声音，并生成支持 100 种语言的语音输出。用户可以在语音助手、游戏、媒体娱乐等场景中使用个人化语音，实现更加沉浸式和情感化的体验。

AI VoiceOver

登录后可以使用AI语音解说你的视频，限制100MB。可以选择不同的语音。价格：免费定位：视频语音解说工具

ZeroBot

ZeroBot是互联网上最好的语音聊天机器人。想象一下与一个像真人一样与你交谈的计算机朋友进行对话。与ZeroBot一起，不仅仅是打字 - 还可以说话！准备好以全新的方式聊天吧。主要功能点： - 在任何时间、任何地点创建和与AI代理人交谈 - 提供导师、咨询师、伙伴和医生等不同角色 ZeroBot在媒体上的影响

聊天机器人

Airchat

Airchat 是一款能够提供有意义对话的应用。它结合了语音和 Twitter 的特点，让你随时随地加入、参与、享受或旁听精彩的聚会对话。不再感到孤单，与新朋友和老朋友连接在一起，与志同道合的人一起畅谈。它是现代社交咖啡馆，可以变得如此宽广或如此狭小。

AI聊天机器人

SALMONN

SALMONN是由清华大学电子工程系和字节跳动开发的大型语言模型（LLM），支持语音、音频事件和音乐输入。与仅支持语音或音频事件输入的模型不同，SALMONN可以感知和理解各种音频输入，从而获得多语言语音识别和翻译以及音频-语音共推理等新兴能力。这可以被视为给予LLM“听觉”和认知听觉能力，使SALMONN成为通向具有听觉能力的人工通用智能的一步。

Radio Starlight

Radio Starlight

Radio Starlight 是一款个性化语音电台应用。它可以根据你的喜好自动生成电台节目,包括新闻播报和音乐推荐,就像有个私人DJ和新闻播报员。你可以设定电台主播的语音风格,还可以使用 DALL-E 2 为节目制作封面和主播头像。无论你在家还是外出,都可以随时随地收听属于你的个性电台节目。

Speaking AI

Speaking AI是一款使用先进的大语言模型技术实现的文本到语音转换工具，能够以自然的情感进行对话并实现零样本语音克隆。它可以捕捉你独特的音调、音高和调节，让你以前所未有的方式复制和利用自己的声音。Speaking AI通过先进的技术实现了声音克隆的突破，让语音克隆听起来更加自然。使用Speaking AI，你可以通过录制自己的声音，在短短10秒钟内进行克隆。我们致力于将最先进的AI技术用于推动人类进步，特别是在促进语音克隆技术的发展和应用方面。

LMNT

语音创作是一款能够创造感情丰富、人类般的语音和定制化声音的产品。它能够激发创造力，让用户通过语音表达自己的情感和想法。我们提供多种定制化的声音选择，让用户能够创造出独特的声音作品。语音创作具有简单易用的界面和丰富的功能，定价灵活合理，适合各种用户需求。

Suno AI

Suno AI是一款通过人工智能创作音乐和语音的产品。它利用先进的算法和数据模型，能够生成高质量的音乐和语音作品。Suno AI具有以下功能和优势：1. 创作多种风格的音乐，包括流行、古典、电子等；2. 生成自然流畅的语音，可用于语音合成、配音等场景；3. 提供丰富的音乐和语音效果，可根据用户需求进行定制；4. 界面简洁友好，操作简单易上手；5. 支持多种输出格式，方便用户在不同平台上使用。Suno AI的定价根据用户的使用情况而定，详情请访问官方网站。

AI Torke

AITorke是一款虚拟助手，内容创作者和影响者可以使用它来创建博客、视频和社交媒体上的独特内容，更快地吸引更多的关注者并利用现有关系获得收益。AITorke使用最先进的人工智能技术，包括100个预构建模板、AI语音、AI图像、AI代码等功能，可帮助用户节省时间和精力。

GPTChat

GPTChatBot是一款连接ChatGPT的Android应用，可通过语音和Whatsapp分享与之交流。它是你的个人AI聊天机器人助手，能帮助你完成日常任务，回答问题并提供娱乐。使用GPTChatBot，你可以即时获得问题的智能回答，与家人和朋友保持联系，获得日常任务的帮助，甚至玩游戏。该应用具有简单易用和无缝体验的特点。

AI聊天机器人

Langchats

Langchats是一个AI语言伙伴，通过自然对话帮助您学习语言。通过Langchats，您可以随时随地与AI对话，提高语言流利度。Langchats支持30多种语言，包括阿拉伯语、英语、法语、日语等。Langchats提供翻译、语音回应、纠正、建议等功能，帮助您迅速提升语言能力。Langchats可以节省费用和时间，让您更快地掌握一门语言。

聊天机器人

FineShare FineVoice

Fineshare FineVoice

FineShare FineVoice是一款AI数字语音解决方案，具备强大且易于使用的实时语音变声器、高质量录音机、快速准确的自动转录和逼真的AI语音生成器。它基于AI语音处理算法，可以轻松地优化和定制您的声音。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase