Minmo : MinMoは、シームレスな音声インタラクションを可能にするマルチモーダル大規模言語モデルです。

Minmo

言語識別音声テキスト変換 #音声インタラクション #マルチモーダル #大規模言語モデル #人工知能通常製品オープンソース

紹介 :

MinMoは、阿里巴巴グループの通義实验室が開発した、約80億パラメータを持つマルチモーダル大規模言語モデルです。シームレスな音声インタラクションの実現に特化しており、音声テキストアライメント、テキスト音声アライメント、音声音声アライメント、全二重インタラクションアライメントを含む複数段階のトレーニングを経て、140万時間におよぶ多様な音声データと幅広い音声タスクでトレーニングされています。MinMoは音声理解と生成における様々なベンチマークテストで最先端の性能を達成しており、同時にテキストの大規模言語モデルの能力も維持し、全二重対話（ユーザーとシステム間の同時双方向通信）をサポートしています。さらに、MinMoは、音声生成において従来のモデルを凌駕する、新規かつシンプルな音声デコーダを提案しています。MinMoの指示遵守能力は強化されており、ユーザーの指示に従って、感情、方言、話速などの詳細を含む音声生成を制御し、特定の音声を模倣することができます。MinMoの音声テキスト変換の遅延は約100ミリ秒、全二重遅延は理論上約600ミリ秒、実際は約800ミリ秒です。MinMoの開発は、従来のマルチモーダルモデルのアライメントにおける主な制約を克服し、ユーザーにより自然でスムーズ、人間味のある音声インタラクション体験を提供することを目的としています。

ターゲットユーザー :

対象ユーザーは、スマートカスタマーサービスシステム、音声アシスタント開発者、音声インタラクション機能を必要とする企業など、効率的で自然な音声インタラクションを必要とするユーザーです。MinMoの低遅延と高い指示遵守能力により、スマートスピーカー、車載音声システムなど、リアルタイムの応答と音声出力の正確な制御が必要なアプリケーションに最適です。さらに、マルチモーダルインタラクションと音声技術の研究者や開発者にとって、MinMoは探索と革新のための強力なツールとなります。

総訪問数： 47.9K

最も高い割合の地域： CN(67.98%)

ウェブサイト閲覧数： 47.5K

使用シナリオ

MinMoと英語で映画についてチャットする。

MinMoと中国語でチャットし、同時にMinMoの方言（四川語、広東語など）を制御する。

MinMoと中国語でチャットし、MinMoに感情的なやり取りやロールプレイングを指示する。

製品特徴

音声対話、多言語音声認識、多言語音声翻訳、感情認識、話者分析、オーディオイベント分析などのベンチマークテストにおいて、現在の最先端の性能を達成しています。

エンドツーエンドの音声インタラクションをサポートし、ユーザーの指示に従って、生成される音声の感情、方言、話し方、特定の音声の模倣を制御し、90％を超える効率で生成します。

全二重音声インタラクションをサポートし、ユーザーとシステム間のスムーズな複数回の対話を実現し、背景ノイズの干渉を防ぎます。音声テキスト変換の遅延は約100ミリ秒、全二重遅延は理論上約600ミリ秒、実際は約800ミリ秒です。

音声生成において従来のモデルを凌駕する、新規かつシンプルな音声デコーダを提案しています。