AI语音助手

2025年最佳的 48 个AI语音助手工具

Ola Friend

Ola Friend是字节跳动豆包推出的首款AI智能体耳机，它通过接入豆包大模型，与豆包APP深度结合，实现了无需打开手机即可通过语音唤醒AI助手的功能。这款耳机在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助，旨在成为用户随时陪伴的朋友。产品采用了OWS（Open Wearable Stereo）专利技术，实现了无感佩戴、不入耳、音响级声效和超长续航等特点。

EMOVA

EMOVA（EMotionally Omni-present Voice Assistant）是一个多模态语言模型，它能够进行端到端的语音处理，同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器，实现了情感丰富的多模态对话，并在视觉-语言和语音基准测试中达到了最先进的性能。

EVI 2

EVI 2是Hume AI推出的新型基础语音对语音模型，能够以接近人类的自然方式与用户进行流畅对话。它具备快速响应、理解用户语调、生成不同语调、以及执行特定请求的能力。EVI 2通过特殊训练增强了情感智能，能够预测并适应用户的偏好，维持有趣且引人入胜的性格和个性。此外，EVI 2还具有多语言能力，能够适应不同应用场景和用户需求。

汉王语音王

汉王语音王

汉王语音王App是汉王科技基于自研多模态天地大模型，自主研发的智能语音旗舰应用。它集AI语音记录、智能翻译与同声传译于一体，支持AI精准转写、拍录同步、话稿整理、智能总结及不间断实时翻译等功能。依托全栈AI技术，汉王语音王致力于帮助用户跨越语言障碍，提高办公、学习、会议、旅游等场景的效率和便捷性。

Gemini Live

Gemini Live是谷歌推出的AI助手Gemini的新功能，它允许用户进行自由流畅的对话，支持多声道选择，无需手持操作，提供更自然、会话式的交互体验。它是数字助理领域的重大升级，能够处理复杂任务，节省用户宝贵的时间。

Qwen2 Audio Instruct Demo

Qwen2 Audio Instruct Demo

Qwen2 Audio Instruct Demo 是一个基于音频指令的交互式演示网站，它利用最新的人工智能技术，让用户通过语音指令与网页进行互动。这种技术不仅增强了用户体验，还为残障人士提供了更便捷的访问方式。产品背景信息包括其开发团队和技术支持，价格定位为免费试用，主要面向对人工智能交互感兴趣的用户群体。

Voice Assistant Plugin for GPT

Voice Assistant Plugin For GPT

Voice Assistant Plugin for GPT 是一款专为GPT设计的语音助手插件，旨在通过语音交互提升用户体验。该插件结合了先进的语音识别技术，允许用户通过语音命令与GPT进行交流，实现更加自然和便捷的对话体验。产品背景信息显示，该插件由Air Tech Studio开发，支持多语言，并且注重用户数据安全，不与第三方分享任何数据。

SpeechGPT2

SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型，能够感知并表达情感，并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器（750bps），模拟语义和声学信息，并通过多输入多输出语言模型（MIMO-LM）进行初始化。目前，SpeechGPT2还是一个基于轮次的对话系统，正在开发全双工实时版本，并已取得一些有希望的进展。尽管受限于计算和数据资源，SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足，计划未来开源技术报告、代码和模型权重。

Dialed

Dialed是一款AI驱动的应用程序，旨在通过个性化的激励演讲来激发用户的潜能。无论是健身、演讲还是日常挑战，Dialed都能提供个性化的激励和启发。产品的主要优点包括个性化的激励演讲、真诚的支持、传奇的演讲定制、多种声音选择、背景音乐以及AI生成的激励图像。此外，Dialed还允许用户将激励演讲分享给朋友和家人。

Qwen2-Audio

Qwen2-Audio是由阿里云提出的大型音频语言模型，能够接受各种音频信号输入，并根据语音指令进行音频分析或直接文本回复。该模型支持两种不同的音频交互模式：语音聊天和音频分析。它在13个标准基准测试中表现出色，包括自动语音识别、语音到文本翻译、语音情感识别等。

Swift

Swift是一个由Groq、Cartesia和Vercel支持的快速AI语音助手。它使用Groq进行OpenAI Whisper和Meta Llama 3的快速推理，Cartesia的Sonic语音模型进行快速语音合成，并实时流式传输到前端。VAD技术用于检测用户说话并运行语音片段上的回调。Swift是一个使用TypeScript编写的Next.js项目，并部署在Vercel上。

Moocat

Moocat是一款AI驱动的智能输入法，它通过内置的人工智能技术，为用户提供实时的打字建议、语法纠正和上下文感知的回复，从而提高打字速度和准确性。Moocat输入法还具备语言翻译功能，消除语言障碍，让沟通更加顺畅。此外，用户可以个性化定制键盘的外观和功能，以匹配个人风格和偏好。适用于专业人士、学生、旅行者等不同用户群体，提高日常沟通体验。

WAKE UP MOTHAF&#$R

WAKE UP MOTHAF&#$R

WAKE UP MOTHAF&#$R是一个提供个性化AI语音唤醒服务的网站，模仿知名人物David Goggins的声音，帮助用户在早晨醒来。该工具由David Goggins的粉丝们创建，并非由David Goggins本人或其团队正式支持。

Friend

Friend是一款领先的开源AI穿戴设备，它通过连接移动设备，提供自动、高质量的会议、聊天和语音备忘录的实时转录服务。它具备实时AI音频处理能力，低功耗蓝牙技术，以及开源软件设计，使得用户能够方便地访问和贡献代码。该产品以其便携性、实用性和开源性，为需要高效记录和管理对话内容的用户提供了一个创新解决方案。

FRIEND NECKLACE

FRIEND NECKLACE

FRIEND NECKLACE是一款开源的可穿戴AI助手，具备个性化AI对话和反馈功能。它是一个集AI笔记、提醒、建议等多功能于一体的智能设备。产品完全开源，所有数据存储在用户的手机上，保证了数据的隐私和安全。

Real-time Voice AI Agent

Real Time Voice AI Agent

Real-time Voice AI Agent是一个高度灵活的实时语音交互模型，它能够在大约500毫秒内通过语音回答任何查询。该模型支持用户选择任何大型语言模型、文本到语音(TTS)模型和语音到文本(STT)模型。它非常适合用于客户服务机器人、接待员等涉及语音的应用场景。

june

june是一个结合了Ollama、Hugging Face Transformers和Coqui TTS Toolkit的本地语音聊天机器人。它提供了一种灵活、注重隐私的解决方案，可以在本地机器上进行语音辅助交互，确保没有数据被发送到外部服务器。产品的主要优点包括无需联网即可使用、保护用户隐私、支持多种交互模式等。

Apple Intelligence

Apple Intelligence

Apple Intelligence是Apple公司最新推出的个人智能化系统，它深度集成于iOS 18、iPadOS 18和Mac Sequoia中，利用Apple芯片对语言和图像的深入理解，提供跨app的多种操作，简化日常任务流程。Apple Intelligence在设备端处理任务，确保用户隐私安全，同时通过Private Cloud Compute技术，灵活配置计算资源，处理复杂请求。

MiGPT

MiGPT是一个通过将小爱音箱与ChatGPT的智能理解能力相结合，实现智能家居语音控制的项目。它不仅支持设备自动化，还能够通过角色扮演、流式响应、长短期记忆等技术，让智能家居设备更智能、更贴心地响应用户的指令。MiGPT支持Docker和Node.js两种启动方式，用户可以根据自己的需求进行选择。

Siri-Ultra

Siri-Ultra是一个基于云的智能助手，可以在Cloudflare Workers上运行，并且可以与任何大型语言模型（LLM）配合使用。它利用了LLaMA 3模型，并且通过自定义函数调用来获取天气数据和在线搜索。这个项目允许用户通过Apple Shortcuts来使用Siri，从而消除了对专用硬件设备的需求。

Hume AI EVI

Hume AI的同理心语音接口(EVI)是一种由同理心大型语言模型(eLLM)驱动的API,可以理解和模拟语音音调、词语重音等,从而优化人机交互。它基于10多年的研究成果、数百万专利数据点和30多篇发表在顶尖期刊的论文。EVI旨在为任何应用程序提供更自然、富有同情心的语音界面,让人与AI的互动更加人性化。该技术可广泛应用于销售/会议分析、健康与保健、AI研究服务、社交网络等领域。

Voice Control for ChatGPT x Mia AI

Voice Control For ChatGPT X Mia AI

Voice Control for ChatGPT x Mia AI是一个扩展，为ChatGPT提供语音控制和朗读功能。通过录音按钮，您可以录制并发送语音查询给ChatGPT，无需打字。AI的回答会朗读出来，确保流畅的听觉交互。此外，该插件还可以将ChatGPT变成您的个人语音助手，具备Mia AI的功能。

ADeus

ADeus是一个开源的人工智能可穿戴设备项目，实时记录语音和环境数据，通过手机或电脑应用进行个性化助理服务，支持多种智能功能，用户拥有对数据的完全控制权。

MICRO LLAMA

MICRO LLAMA是您个人的私人最先进的设备AI助手。无需注册，MICRO LLAMA即可开始工作。作为AI助手，MICRO LLAMA旨在成为终极个人助手。从整理您的待办事项列表到帮助您保持高效，MICRO LLAMA在这里让您的生活更轻松。无论您需要安排约会、设置提醒，或者只是找到问题的答案，MICRO LLAMA都能帮到您。

Chat GPT voice

通过多语言TTS文本转语音和STT语音转文本功能，使GPT聊天具备语音交互能力。

Voxos

Voxos 是一款多功能且用户友好的桌面语音助手，可将LLM集成到日常工作流程中，相比于使用Web UI访问LLM，它更加简化。它非常适合任何使用桌面计算机且希望节省时间和精力的人。此外，您还可以在Voxos的模块化设计基础上构建自己的定制功能。Voxos旨在易于扩展和定制。因此，我们鼓励您以符合当前设计模式的方式定制您的修改，并希望您通过提交MR来为Voxos的所有用户带来益处。

雷鸟RayNeo AI

雷鸟rayneo AI

RayNeo AI是雷鸟自主研发的人工智能语音助手,集成了自然语言处理、语音识别、语音合成等核心技术,可实现自然语言交互、语音控制等功能。该产品已在雷鸟XR系列产品中进行内测,支持行程规划、天气查询、百科知识问答等服务,提升了产品的智能化水平。下一步,RayNeo AI计划推出视觉识别等多模态交互能力,实现更丰富的人机交互体验。

Blerp - AI TTS, Sound Memes on Streams

Blerp AI TTS, Sound Memes On Streams

Blerp是一款支持AI文本转语音、声音表情包、GIF、声音面板和频道积分等功能的插件。用户可以在Twitch、YouTube、Kick等平台上使用Blerp插件，在直播聊天室中发送各种声音和文本转语音，并可以附带表情和GIF。作为观众，您还可以通过该插件收集频道积分和使用WalkOn声音。作为流媒体主播，您可以在Blerp平台上添加和设置您的声音。

GPTAssistant

这是一个基于ChatGPT API开发的安卓端语音助手APP,支持语音交互、连续对话、识别图片等功能。用户只需通过手机音量键,就可以从任意界面唤起并进行语音提问,无需打字,交互体验极佳。支持自定义问题模板、网页抓取、Vision识图等高级功能。

Talk to GPT

Talk to GPT是一个Chrome插件，使用语音与ChatGPT进行交流。它通过分析你的语音，将你说的话转录成文字，并发送给ChatGPT。ChatGPT能够以100多种语言回答你的问题。插件还支持自动校正和语言水平选择。定价请查看官方网站。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase