Minmo : MinMo是一款多模态大型语言模型，用于无缝语音交互。

Minmo

语音识别语音转文本 #语音交互 #多模态 #大型语言模型 #人工智能普通产品开源

简介 :

MinMo是阿里巴巴集团通义实验室开发的一款多模态大型语言模型，拥有约80亿参数，专注于实现无缝语音交互。它通过多个阶段的训练，包括语音到文本对齐、文本到语音对齐、语音到语音对齐和全双工交互对齐，在140万小时的多样化语音数据和广泛的语音任务上进行训练。MinMo在语音理解和生成的各种基准测试中达到了最先进的性能，同时保持了文本大型语言模型的能力，并支持全双工对话，即用户和系统之间的同时双向通信。此外，MinMo还提出了一种新颖且简单的语音解码器，在语音生成方面超越了以往的模型。MinMo的指令遵循能力得到了增强，支持根据用户指令控制语音生成，包括情感、方言和语速等细节，并模仿特定的声音。MinMo的语音到文本延迟约为100毫秒，全双工延迟理论上约为600毫秒，实际约为800毫秒。MinMo的开发旨在克服以往对齐多模态模型的主要限制，为用户提供更自然、流畅和人性化的语音交互体验。

需求人群 :

目标受众包括需要高效、自然语音交互的用户，如智能客服系统、语音助手开发者、需要语音交互功能的企业等。MinMo的低延迟和高指令遵循能力使其非常适合需要实时响应和精确控制语音输出的应用场景，如智能音箱、车载语音系统等。此外，对于研究多模态交互和语音技术的研究人员和开发者，MinMo提供了一个强大的工具来探索和创新。

总访问量： 64.0K

占比最多地区： CN(67.98%)

本站浏览量： 61.0K

使用场景

与MinMo用英语聊天讨论电影。

用中文与MinMo聊天，同时控制MinMo的方言（如四川话、粤语等）。

用中文与MinMo聊天，指示MinMo进行情感互动和角色扮演。

产品特色

在语音对话、多语言语音识别、多语言语音翻译、情感识别、说话人分析和音频事件分析等基准测试中达到当前最先进的性能。

支持端到端的语音交互，根据用户指令控制生成音频的情感、方言和说话风格，以及模仿特定的声音，生成效率超过90%。

支持全双工语音交互，实现用户和系统之间的平滑多轮对话，防止背景噪音的干扰。语音到文本延迟约为100毫秒，全双工延迟理论上约为600毫秒，实际约为800毫秒。

提出了一种新颖且简单的语音解码器，在语音生成方面超越了以往的模型。