Minmo : MinMo是一款多模態大型語言模型，用於無縫語音交互。

Minmo

語音識別語音轉文本 #語音交互 #多模態 #大型語言模型 #人工智能普通產品開源

簡介 :

MinMo是阿里巴巴集團通義實驗室開發的一款多模態大型語言模型，擁有約80億參數，專注於實現無縫語音交互。它通過多個階段的訓練，包括語音到文本對齊、文本到語音對齊、語音到語音對齊和全雙工交互對齊，在140萬小時的多樣化語音數據和廣泛的語音任務上進行訓練。MinMo在語音理解和生成的各種基準測試中達到了最先進的性能，同時保持了文本大型語言模型的能力，並支持全雙工對話，即用戶和系統之間的同時雙向通信。此外，MinMo還提出了一種新穎且簡單的語音解碼器，在語音生成方面超越了以往的模型。MinMo的指令遵循能力得到了增強，支持根據用戶指令控制語音生成，包括情感、方言和語速等細節，並模仿特定的聲音。MinMo的語音到文本延遲約為100毫秒，全雙工延遲理論上約為600毫秒，實際約為800毫秒。MinMo的開發旨在克服以往對齊多模態模型的主要限制，為用戶提供更自然、流暢和人性化的語音交互體驗。

需求人群 :

目標受眾包括需要高效、自然語音交互的用戶，如智能客服系統、語音助手開發者、需要語音交互功能的企業等。MinMo的低延遲和高指令遵循能力使其非常適合需要即時響應和精確控制語音輸出的應用場景，如智能音箱、車載語音系統等。此外，對於研究多模態交互和語音技術的研究人員和開發者，MinMo提供了一個強大的工具來探索和創新。

總訪問量： 64.0K

佔比最多地區： CN(67.98%)

本站瀏覽量： 58.2K

使用場景

與MinMo用英語聊天討論電影。

用中文與MinMo聊天，同時控制MinMo的方言（如四川話、粵語等）。

用中文與MinMo聊天，指示MinMo進行情感互動和角色扮演。

產品特色

在語音對話、多語言語音識別、多語言語音翻譯、情感識別、說話人分析和音頻事件分析等基準測試中達到當前最先進的性能。

支持端到端的語音交互，根據用戶指令控制生成音頻的情感、方言和說話風格，以及模仿特定的聲音，生成效率超過90%。

支持全雙工語音交互，實現用戶和系統之間的平滑多輪對話，防止背景噪音的干擾。語音到文本延遲約為100毫秒，全雙工延遲理論上約為600毫秒，實際約為800毫秒。

提出了一種新穎且簡單的語音解碼器，在語音生成方面超越了以往的模型。