语音交互

# 语音交互

Overhyped AI

Overhyped AI是一种AI语音代理，旨在提高产品采纳率。它通过个性化引导，提供从用户启动到实现关键体验的专业指导，帮助用户快速掌握产品的核心功能，增加用户粘性。

Vibe Coder

Vibe Coder 是由 Deepgram 开发的一款开源 VS Code 扩展，旨在探索语音驱动编程的可能性。它利用语音识别技术，让用户通过语音指令与 AI 编程助手进行交互，快速将想法转化为代码原型。这种创新的编程方式被称为‘vibe coding’，旨在提高编程效率并改变未来软件开发的方式。Vibe Coder 目前处于实验阶段，Deepgram 希望通过社区反馈不断完善该工具。

Sesame

Sesame 是一个专注于语音技术的跨学科产品和研究团队，旨在通过自然语音交互，让用户与计算机的交互更加自然和高效。其主要产品包括个人语音伴侣和轻量级可穿戴眼镜设备，旨在实现计算机的拟人化，帮助用户更好地组织信息、提升效率。产品的主要优点是语音交互的自然性和设备的便携性，适合日常使用。目前，Sesame 正在积极招聘，致力于推动语音技术的创新。

Riviera

Riviera 是一款专为酒店行业设计的AI语音平台，旨在通过智能化的语音交互提升客户体验并优化酒店运营效率。它支持多语言对话，能够快速响应客户咨询，处理预订、房间服务等需求，同时通过数据分析提供个性化服务。该产品利用先进的AI技术，减少人工干预，降低运营成本，尤其适合酒店在高峰期减轻员工工作压力。其背景是随着酒店行业的数字化转型，客户对服务的即时性和个性化需求日益增长，Riviera 正是为满足这一需求而生。价格和具体定位需根据酒店规模和需求定制。

Lovify

Lovify是Lovable.dev的扩展插件，旨在通过一系列AI驱动的功能提升开发人员的工作效率。它支持GitHub集成，能够快速导入和管理仓库；提供智能提示增强功能，根据上下文优化提示；具备项目规划工具，自动生成PRD和行动计划；支持语音交互，实现免手动编码和调试；还有快捷的斜杠命令，快速访问各种功能。这些功能的结合使得开发人员能够更高效地编写代码、管理项目，并获得实时帮助。目前该产品处于推广阶段，具体价格未明确，但可通过Chrome扩展程序商店免费试用。

Step-Audio

Step-Audio是首个生产级开源智能语音交互框架，整合了语音理解与生成能力，支持多语言对话、情感语调、方言、语速和韵律风格控制。其核心技术包括130B参数多模态模型、生成式数据引擎、精细语音控制和增强智能。该框架通过开源模型和工具，推动智能语音交互技术的发展，适用于多种语音应用场景。

Chirp AI

Chirp AI 是一款专为 Apple Watch 设计的智能语音助手应用。它通过强大的语音识别和人工智能技术，让用户能够仅通过语音指令完成各种操作，如发送信息、获取信息、搜索网络等，极大地提升了用户在移动场景下的操作效率。该产品的主要优点是无需频繁使用手机，即可实现高效的信息交互和任务处理。它适用于那些希望在日常生活中减少对手机依赖，同时又能快速获取信息和完成任务的用户。目前该应用提供免费下载，定位为提升用户生产力和便捷性的智能工具。

FoloUp

FoloUp 是一款专注于招聘流程的 AI 驱动语音面试平台。它通过智能生成面试问题、实时语音交互和深度分析候选人回答，帮助企业高效筛选和评估候选人。该平台利用先进的 AI 技术，确保面试过程的自然流畅，并提供详细的候选人表现报告。FoloUp 旨在通过技术提升招聘效率，降低人力成本，同时为候选人提供更公平的面试体验。目前，该平台以开源形式提供，支持自定义部署和使用。

Storytelling Chatbot

Storytelling Chatbot

该产品利用 Gemini 2.0 语言模型和 Google Imagen 图像生成技术，结合语音识别和语音合成，为用户提供一个互动式的故事创作体验。用户可以通过语音输入选择故事走向，系统会实时生成故事内容和相关图像。该产品的主要优点是创新的交互方式和强大的内容生成能力，适合用于教育、娱乐和创意启发。目前该产品处于开源阶段，未明确具体定价，主要面向开发者和教育机构。

SpeechGPT 2.0-preview

Speechgpt 2.0 Preview

SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练，实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达，同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互，未来计划扩展到更多语言。

语音转文本

MinMo

MinMo是阿里巴巴集团通义实验室开发的一款多模态大型语言模型，拥有约80亿参数，专注于实现无缝语音交互。它通过多个阶段的训练，包括语音到文本对齐、文本到语音对齐、语音到语音对齐和全双工交互对齐，在140万小时的多样化语音数据和广泛的语音任务上进行训练。MinMo在语音理解和生成的各种基准测试中达到了最先进的性能，同时保持了文本大型语言模型的能力，并支持全双工对话，即用户和系统之间的同时双向通信。此外，MinMo还提出了一种新颖且简单的语音解码器，在语音生成方面超越了以往的模型。MinMo的指令遵循能力得到了增强，支持根据用户指令控制语音生成，包括情感、方言和语速等细节，并模仿特定的声音。MinMo的语音到文本延迟约为100毫秒，全双工延迟理论上约为600毫秒，实际约为800毫秒。MinMo的开发旨在克服以往对齐多模态模型的主要限制，为用户提供更自然、流畅和人性化的语音交互体验。

MiniCPM-o-2_6

MiniCPM-o 2.6是MiniCPM-o系列中最新且功能最强大的模型。该模型基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建，拥有8B参数。它在视觉理解、语音交互和多模态直播方面表现出色，支持实时语音对话和多模态直播功能。该模型在开源社区中表现优异，超越了多个知名模型。其优势在于高效的推理速度、低延迟、低内存和功耗，能够在iPad等终端设备上高效支持多模态直播。此外，MiniCPM-o 2.6易于使用，支持多种使用方式，包括llama.cpp的CPU推理、int4和GGUF格式的量化模型、vLLM的高吞吐量推理等。

理想同学

理想同学是由理想汽车依托自研大模型精心打造的一款人工智能应用，旨在为用户提供一个随时在线的智能助手。它具备知识问答能力，能解答汽车、出行、财经、科技等领域的问题，并擅长英文词句翻译、文本生成等，助力用户学习生活。此外，它还具备视觉感知能力，可以陪伴用户和家庭一起看世界，识别外出游玩时遇到的各种事物。产品界面设计简洁大方，语音输入精准迅速，输出自然流畅，近似人声，是一款集知识问答、视觉识别和语音交互于一体的智能助手。

Agentplace

Agentplace是一个无需编码知识即可在AI模型上构建AI应用和网站平台。它利用AI的适应性、常识、知识和语音能力，允许用户完全通过文本编程。产品的主要优点包括动态用户界面、语音模式、常识理解和即时发布。Agentplace的背景信息显示，它旨在通过AI技术简化网站和应用的创建过程，使非技术用户也能轻松构建交互式和动态的网站。价格方面，Agentplace提供免费和付费两种定价计划，以满足不同用户的需求。

Speek

Speek是一款AI驱动的助手，通过语音和动画鼠标指针指导用户在网站上的操作，帮助解答问题、引导用户了解网站功能，并简化购买决策。它通过提供实时帮助，结合支持和引导，快速安装并立即开始工作，改善用户体验，提升销售，并减少客户支持查询。

Google Gemini App

Google Gemini App

Google Gemini是一款由Google开发的AI助手应用，旨在通过人工智能技术帮助用户提高创造力和生产力。它允许用户通过语音与应用交互，进行头脑风暴、简化复杂话题、为重要时刻排练等。Gemini能够连接用户喜爱的Google应用，如搜索、YouTube、Google Map、Gmail等，提供交互式视觉和现实世界示例，解锁专业知识，获取关于任何主题的定制信息。此外，它还能帮助用户更快速、更好地规划旅行，创建AI生成的图像，并提供摘要、深入研究和源链接。

GPTS4O.SO

GPT-4o是OpenAI推出的先进多模态AI平台，它在GPT-4的基础上进一步扩展，实现了真正的多模态方法，涵盖文本、图像和音频。GPT-4o设计上更快、更低成本、更普及，彻底革新我们与AI互动的方式。它提供了流畅且直观的AI交互体验，无论是参与自然对话、解读复杂文本，还是识别语音中的微妙情感，GPT-4o的适应能力都是无与伦比的。

XGO Rider

XGO Rider是一款集成了ChatGPT的桌面双轮足式AI机器人，具备自平衡功能和全向移动能力。它基于Raspberry Pi CM4核心模块构建，支持Python和C++编程，适合AI编程学习和教育使用。XGO Rider不仅能够帮助学生和开发者轻松进入机器人世界，还能通过其丰富的传感器和AI功能进行各种互动和学习，如手势识别、人脸检测、骨骼识别等。

voice-chat-pdf

voice-chat-pdf是一个基于LlamaIndex项目，使用Next.js构建的示例，它通过简单的RAG系统，允许用户通过语音与PDF文档进行交互。这个项目需要OpenAI API密钥来访问实时API，并在项目中生成文档的嵌入向量，以便进行语音交互。它展示了如何将先进的机器学习技术应用于提高文档交互的效率和便捷性。

AI聊天机器人

Realtime API

Realtime API 是 OpenAI 推出的一款低延迟语音交互API，它允许开发者在应用程序中构建快速的语音到语音体验。该API支持自然语音到语音对话，并可处理中断，类似于ChatGPT的高级语音模式。它通过WebSocket连接，支持功能调用，使得语音助手能够响应用户请求，触发动作或引入新上下文。该API的推出，意味着开发者不再需要组合多个模型来构建语音体验，而是可以通过单一API调用实现自然对话体验。

LLaMA-Omni

LLaMA-Omni是一个基于Llama-3.1-8B-Instruct构建的低延迟、高质量的端到端语音交互模型，旨在实现GPT-4o级别的语音能力。该模型支持低延迟的语音交互，能够同时生成文本和语音响应。它在不到3天的时间内使用仅4个GPU完成训练，展示了其高效的训练能力。

文小言

文小言是百度推出的一款基于文心大模型的智能搜索助手APP，它通过AI技术为用户提供搜索、创作、聊天等多种服务。该产品通过记忆用户喜好和需求，提供个性化的搜索结果和创作建议，同时支持语音和拍照输入，使得用户能够更加便捷地获取信息和创作内容。

Open-LLM-VTuber

Open LLM VTuber

Open-LLM-VTuber 是一个开源项目，旨在通过语音与大型语言模型（LLM）进行交互，具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台，允许用户选择不同的语音识别和语音合成后端，以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。

飞船App是一款基于人工智能技术的智能助手应用，专为移动端设计。它通过自然语言对话，提供有趣、有料、有用的交互体验，满足用户在娱乐、效率等方面的需求。产品支持文字与语音输入，提供多音色的TTS选择，使交互更自然、亲切。

Waveform.ai

Waveform.ai 是一个利用人工智能技术通过语音表单收集数据的平台。它通过自然语言交互的方式，帮助用户在客户访谈、员工调查、市场研究和潜在客户生成等方面进行数据收集。该平台的主要优点包括：1. 更全面和深入的信息收集：通过AI驱动的调查，能够收集到更全面和有洞察力的数据，从而进行更深入的分析和做出更明智的决策。2. 更高的响应率：通过AI驱动的语音表单与用户进行自然互动，提高调查的响应率和用户满意度。3. 反映品牌身份：可以个性化语音和个性，以反映品牌身份，创造一致且难忘的用户体验。4. 时间和成本效益：与传统的人工数据收集方法相比，节省时间和降低成本，同时保持准确性和可靠性。

Streamer-Sales

Streamer-Sales 销冠是一个基于大语言模型的智能卖货主播系统，它能够根据商品特点从激发用户购买意愿的角度出发进行商品解说。该模型在 InternLM2 的基础上通过指令微调而来，集成了 LMDeploy 加速推理，支持 ASR 语音生成文字，RAG 检索增强生成，Agent 网络查询等功能，并通过 TTS 技术生成带有感情的语音，最终生成主播数字人视频，为商品解说提供全方位的技术支持。

Rich AI

Rich AI是一款为iPad和iPhone设计的应用程序，旨在提供商业和赚钱的创意灵感、个性化建议、语音模式、学习机会、专业意见以及即时反馈。它通过提供核心创业哲学和营销策略的解释，帮助用户在创业和赚钱方面取得成功。

AI 创业想法

小窗 AI 问答机

小窗 AI 问答机

小窗 ® 对话式 AI 问答机是一款基于大语言模型（LLM）的人工智能技术产品，主要面向孩子群体，帮助他们在学习和生活中获取知识，提升独立思考、提问和语言表达能力。该产品的优点包括博学多知的超级博士、随时交谈的外语陪练、无穷创意的写作助手、善解人意的倾诉对象等。该产品定位为面向家庭和教育场景的 AI 助手，为孩子提供全方位的知识获取和交流互动。

Play.ai

Play.ai 是一个先进的语音交互平台，它利用人工智能技术为用户提供流畅、自然的对话体验。该平台不仅能够理解用户的指令，还能根据上下文进行智能回应，为用户提供个性化的服务。Play.ai 的主要优点在于其高度的交互性和智能化，它能够适应不同用户的需求，提供定制化的对话服务。此外，Play.ai 还具有易于使用、快速响应等特点，使其成为企业和个人提升沟通效率的有力工具。

聊天机器人

Retell AI

Retell AI是一个能够帮助开发者在一天内构建人类般对话语音AI的API。它具有大约800毫秒的响应时间，并能够处理中断。使用Retell AI，您可以体验到与真实对话一样自然和流畅的交互。

开发与工具

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase