| HuggingFace | 博客 | 小米MiMo API平台 | ️ 小米MiMo工作室 |社群微信群MiMo-V2.5-ProMiMo-V2.5-Pro 是一个开源的专家混合MoE语言模型总参数量达1.02万亿激活参数量为420亿。它采用了 MiMo-V2-Flash 中引入的混合注意力架构和三层多令牌预测MTP技术上下文长度最高可达100万令牌。1. 简介MiMo-V2.5-Pro 是我们迄今为止最强大的模型专为最严苛的智能体任务、复杂软件工程和长周期任务而设计。它能在 100 万 token 的上下文窗口中保持强大的指令遵循能力和连贯性支持跨越数千次工具调用的复杂任务流程。主要特性包括混合注意力架构以 6:1 的比例交替使用滑动窗口注意力SWA和全局注意力GA滑动窗口大小为 128。通过可学习注意力汇聚偏置attention sink bias在减少 KV 缓存存储近 7 倍的同时保持长上下文性能。多 token 预测MTP配备三个基于密集前馈网络FFN的轻量级 MTP 模块推理时输出速度提升三倍并可加速强化学习训练中的策略推演rollout。高效预训练使用 FP8 混合精度和原生 32k 序列长度在 27T token 上完成训练。上下文窗口最高支持 100 万 token。智能体能力训练后阶段结合监督微调SFT、大规模智能体强化学习以及多教师同策略蒸馏MOPD在最严苛的智能体任务、复杂软件工程和长周期任务上表现卓越。2. 模型下载模型总参数量激活参数量上下文长度精度下载MiMo-V2.5-Pro1.02T42B1MFP8 (E4M3) Mixed HuggingFaceMiMo-V2.5-Pro-Base1.02T42B256KFP8 (E4M3) Mixed HuggingFace3. 评估结果基础模型评估CategoryBenchmarkSettingMiMo-V2.5-Pro BaseMiMo-V2.5 BaseDeepSeek-V4-Pro BaseDeepSeek-V4-Flash BaseKimi-K2 BaseParams#Activated / #Total-42B / 1.02T15B / 310B49B / 1.6T13B / 284B32B / 1.04TGeneralBBH3-shot88.487.287.586.988.7MMLU5-shot89.486.390.188.787.8MMLU-Redux5-shot92.889.890.889.490.2MMLU-Pro5-shot68.565.873.568.369.2DROP3-shot86.383.788.788.683.6ARC-Challenge25-shot97.296.5--96.2HellaSwag10-shot89.888.688.085.794.6WinoGrande5-shot85.684.781.579.585.3TriviaQA5-shot81.380.785.682.885.1GPQA-Diamond5-shot66.758.1--48.1MathGSM8K8-shot99.683.392.690.892.1MATH4-shot86.267.764.557.470.2AIME 24252-shot37.336.9--31.6CodeHumanEval1-shot75.671.3--84.8MBPP3-shot74.170.9--73.8LiveCodeBench v61-shot39.635.5--26.3SWE-Bench (AgentLess)3-shot35.730.8--28.2ChineseC-Eval5-shot91.588.693.192.192.5CMMLU5-shot90.288.290.890.490.9MultilingualGlobalMMLU5-shot83.677.4--80.7长上下文评估GraphWalks是OpenAI推出的长上下文基准测试通过用十六进制哈希节点的有向图填充提示词要求模型运行广度优先搜索精确找出深度为N的节点或列出某个节点的父节点。我们在32k至100万输入标记的范围内进行评估并应用了Anthropic描述的相同评估修正方案。MiMo V2.5 Pro实现了长上下文推理的重大突破。当上下文超过128k时V2 Pro版本性能急剧下降在100万标记量级时两个子任务得分均归零而V2.5 Pro在512k标记量级仍保持0.56BFS/0.92父节点的得分在100万标记量级也维持0.37/0.62的表现。四、模型架构与训练流程MiMo-V2.5-Pro通过交替使用局部滑动窗口注意力SWA和全局注意力GA机制解决了长上下文的二次方复杂度问题。与传统推测解码不同我们的MTP模块实现了训练与推理的原生集成。模型摘要ComponentMiMo-V2.5-ProMiMo-V2.5Total Parameters1.02T310BActivated Parameters42B15BHidden Size61444096Num Layers70 (1 dense 69 MoE)48 (1 dense 47 MoE)Full Attention Layers109SWA Layers6039Num Attention Heads12864Num KV Heads8 (GQA)8 (GA) / 4 (SWA)Head Dim (QK / V)192 / 128192 / 128Routed Experts384256Experts per Token88MoE Intermediate Size20482048Dense Intermediate Size16384 (layer 0 only)16384 (layer 0 only)SWA Window Size128128Max Context Length1M1MMTP Layers33训练流程在后训练阶段MiMo-V2.5-Pro采用MiMo-V2-Flash提出的三阶段训练范式以实现卓越性能。该范式首先通过监督微调(SFT)阶段使用精选数据对构建强大的指令跟随基础能力接着在领域专项训练阶段针对数学、安全性和复杂工具调用等不同领域使用特定强化学习奖励分别优化多个教师模型最终通过多教师策略蒸馏(MOPD)阶段借助动态策略强化学习使学生模型能从自身输出中迭代学习并持续获得专家模型提供的精确词元级指导从而无缝整合广泛能力。5. 部署方案由于推理引擎持续更新优化本文档仅提供参考部署示例。为获得最佳性能我们强烈建议参考我们的方案获取最新实践指南和最优性能配置。SGLang部署说明为了获得最佳性能我们强烈推荐使用SGLang社区官方支持的这种部署方式。最新部署指南请参考SGLang MiMo-V2.5-Pro使用手册。以下是通过SGLang运行模型的示例引用自sgl-project/sglang#23808:SGLANG_ENABLE_SPEC_V21SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK256python3-msglang.launch_server\--model-path XiaomiMiMo/MiMo-V2.5-Pro\--trust-remote-code\--pp-size1\--dp-size2\--ep-size16\--tp-size16\--moe-dense-tp-size1\--enable-dp-attention\--moe-a2a-backend deepep\--dist-init-addr${LWS_LEADER_IP}:20000\--node-rank${LWS_WORKER_INDEX}\--nnodes${LWS_GROUP_SIZE}\--page-size64\--attention-backend fa3\--quantizationfp8\--mem-fraction-static0.7\--max-running-requests128\--cuda-graph-max-bs64\--chunked-prefill-size32768\--context-length1048576\--tokenizer-worker-num64\--speculative-algorithm EAGLE\--speculative-num-steps3\--speculative-eagle-topk1\--speculative-num-draft-tokens4\--enable-multi-layer-eagle\--host0.0.0.0\--port9001\--reasoning-parser mimo\--tool-call-parser mimo\--watchdog-timeout3600\--model-loader-extra-config{enable_multithread_load: true,num_threads: 64}vLLM 部署为了获得最佳性能我们强烈建议采用此方式进行部署该方式已获得vLLM社区的官方支持。最新部署指南请参阅vLLM MiMo-V2.5-Pro 操作手册。本地部署时建议将采样参数设置为temperature1.0top_p0.95。联系我们如有疑问或反馈请通过邮箱mimoxiaomi.com联系我们或加入社区微信群