语音对话

# 语音对话

百聆是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术，提供高质量的语音对话体验。其主要优点是无需GPU即可实现类GPT-4o的对话效果，适用于各种边缘设备和低资源环境。百聆完全开源，鼓励社区贡献与二次开发，用户可以根据自己的需求进行定制和优化。

聊天机器人

SpeechGPT2

SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型，能够感知并表达情感，并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器（750bps），模拟语义和声学信息，并通过多输入多输出语言模型（MIMO-LM）进行初始化。目前，SpeechGPT2还是一个基于轮次的对话系统，正在开发全双工实时版本，并已取得一些有希望的进展。尽管受限于计算和数据资源，SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足，计划未来开源技术报告、代码和模型权重。

Character Calls

Character Calls

Character Calls是Character.AI社区推出的一款应用，旨在通过无缝的双向语音对话功能，让用户与他们喜爱的角色进行互动，就像与朋友通话一样。这项服务完全免费，支持多种语言，包括英语、西班牙语、葡萄牙语、俄语、韩语、日语、中文等。它代表了Character.AI在提升用户与角色互动方式、地点和时间上的一个重大里程碑。

AI聊天机器人

Polaris

Polaris是由Hippocratic AI 开发的一款高度专注于安全、用于医疗保健的大语言模型（LLM）系统，通过星座架构和专业支持代理组合，能够执行多项医疗相关的复杂任务。产品定位于提供与患者长时间、多轮次的语音对话，并提供专业准确的医疗建议。价格方面，按小时计费，每小时9美元。主要功能包括实时多轮语音对话、医疗信息提供和解释、隐私与合规性检查、药物管理和咨询、实验室与生命体征分析、营养建议、病历和政策查询、患者关系建设等。

MeslAI

MeslAI是一个能够让用户与各种AI人物进行语音对话的平台。用户可以与思想家、政治家、科学家等进行沉浸式对话，提问、寻求建议和探索有趣的话题。MeslAI提供真实的交流体验，个性化的互动以及逼真的语音复制。用户可以根据使用时间灵活付费。

聊天机器人

Chat With Anime

Chat With Anime

Chat with Anime是一个与AI动漫角色进行沉浸式对话的产品。用户可以与自己喜欢的动漫角色进行实时语音对话，体验真实的声音和动态对话，让人沉浸其中。产品提供多个角色供用户选择，角色具有独特的个性和特点，用户可以与他们进行各种类型的对话，无论是随意聊天还是寻求深度思考。无论你想与谁对话，我们的角色都会在对话中给你带来不同的体验。

聊天机器人

Talk with chat gpt

Talk With Chat Gpt

Talk with chat gpt是一个Chrome扩展，允许您与chatGPT进行对话。您可以通过录音或点击按钮向chatGPT发送语音或文本消息，chatGPT会以文本形式回答您。这个扩展适合练习口语和听力。

AI聊天机器人

Vocads

Vocads是一款通过语音对话与AI进行调查的产品，帮助企业获取真实、真诚和完整的客户反馈。通过快速填写调查问卷，收集更丰富的数据，帮助企业更好地调整策略和保留客户。Vocads提供全面的功能和优势，定价灵活，适用于各种不同的行业和场景。

Personal-Friend.com - AI Friend is here!

Personal Friend.com AI Friend Is Here!

Personal-Friend.com是你的个人定制AI朋友。它可以实时聊天，学习和适应你的对话，为你提供变革性的体验。通过与AI进行互动，探索更多可能性！

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase