Xiaomi MiMo : 小米首個推理大模型MiMo開源，專為推理任務設計，性能卓越。

Xiaomi MiMo

AI模型代碼助手 #"推理模型、人工智能、開源、數學推理、代碼生成、強化學習"優質新品開源

簡介 :

Xiaomi MiMo是小米公司開源的首個推理大模型，專為推理任務設計，具備卓越的數學推理和代碼生成能力。該模型在數學推理（AIME 24-25）和代碼競賽（LiveCodeBench v5）公開測評集上表現出色，僅用7B的參數規模就超越了OpenAI的o1-mini和阿里Qwen的QwQ-32B-Preview等更大規模的模型。MiMo通過預訓練和後訓練階段的多層面創新，包括數據挖掘、訓練策略和強化學習算法等，顯著提升了推理能力。該模型的開源為研究人員和開發者提供了強大的工具，推動了人工智能在推理領域的進一步發展。

需求人群 :

Xiaomi MiMo適合需要高效推理能力的研究人員、開發者和企業。其強大的數學推理和代碼生成能力使其在學術研究、軟件開發、數據分析和教育等領域具有廣泛的應用前景。對於研究人員來說，MiMo提供了強大的推理工具，有助於推動人工智能在推理領域的研究。對於開發者而言，MiMo可以集成到各種應用中，提升應用的智能水平。對於企業來說，MiMo可以用於優化業務流程，提高決策效率。

總訪問量： 0

本站瀏覽量： 84.5K

使用場景

研究人員可以使用MiMo進行復雜的數學推理研究，提升模型在數學問題上的表現。

開發者可以將MiMo集成到代碼編輯器中，為程序員提供即時代碼建議和優化方案。

企業可以利用MiMo的推理能力優化業務流程，例如在金融領域進行風險評估和預測。

產品特色

預訓練階段，著重挖掘富推理語料，合成約200B tokens推理數據，確保模型見過更多推理模式。

進行三階段訓練，逐步提升訓練難度，總訓練量達到25T tokens，全面提升模型的推理能力。

在後訓練階段，提出Test Difficulty Driven Reward策略，緩解困難算法問題中的獎勵稀疏問題，引入Easy Data Re-Sampling策略，穩定RL訓練。

設計Seamless Rollout系統，加速RL訓練和驗證，分別提升2.29倍和1.96倍的效率。

在數學推理和代碼競賽公開測評集上，MiMo-7B的性能顯著領先於其他同規模模型。