# 一、简介与定位
中国小米公司于2025年12月16日发布了一款开源旗舰级混合专家(MoE)架构大模型——MiMo V2 Flash,核心定位是高效推理、高性能编码与智能体任务适配,主打极致性价比与快速部署能力。
其名称中“MiMo”是小米大模型家族的统一命名前缀,“V2”代表该模型属于家族第二代产品,“Flash”意为“极速”,直观体现其核心优势——超快推理速度;核心功能涵盖高效代码生成与修复、智能体多步任务统筹、长文本处理及通用问答,官方采用开源+API调用双模式,无使用订阅门槛,API定价遵循小米性价比风格,国内输入0.7元/百万tokens、输出2.1元/百万tokens,海外输入0.1美元/百万tokens、输出0.3美元/百万tokens,无免费额度但成本极低,同期无兄弟模型发布,与家族内MiMo-V2-Pro形成定位差异。
目前该模型处于生命周期中的活跃主力阶段,尚未被迭代淘汰,是小米大模型生态的核心标杆产品;其最突出的核心特点是“大参数轻激活”,以3090亿总参数量、150亿激活参数的设计,实现了顶尖性能与极低算力成本、超快推理速度的三重平衡。
# 二、发展历程
# 2.1 研发背景
MiMo V2 Flash发布前,行业内主流大模型呈现“闭源高端化、开源规模化”的两极格局:闭源领域以GPT-4o、Claude 4.5 Sonnet为代表,性能顶尖但推理成本高昂;开源领域则有DeepSeek-V3.2、Kimi-K2 Thinking等头部产品,性能出众但参数量偏大、推理效率不足。同时,AI智能体应用进入爆发前夜,市场对“高性能、低成本、易部署”的开源大模型需求激增,而小米虽已布局大模型赛道,但缺乏一款能跻身开源第一梯队的旗舰产品,在此背景下,MiMo V2 Flash应运而生,聚焦“效率与性能的平衡”,填补小米在高端开源大模型领域的空白。
# 2.2 关键节点
2025年4月,小米推出首个推理大模型Xiaomi MiMo-7B,正式入局大模型赛道,为后续家族产品研发奠定基础;同年11月,被誉为“AI天才少女”的前DeepSeek研究员罗福莉官宣加入小米,担任MiMo大模型负责人,牵头启动MiMo V2系列模型的研发工作;经过一个多月的集中攻关与内测优化,2025年12月16日,小米正式发布MiMo V2 Flash并宣布开源;12月17日,在2025小米人车家全生态合作伙伴大会上,小米集团总裁卢伟冰正式官宣该模型开源上线,同步公布其核心技术细节与API定价;2026年3月,小米开源三层MTP模块相关权重,供开发者拓展开发,进一步完善模型生态。
# 2.3 家族构成
MiMo V2 Flash隶属于小米MiMo大模型家族,该家族采用“端侧+多模态+云端”的三角战略布局,各模型定位清晰、协同互补,具体如下:
Xiaomi MiMo-7B:2025年4月发布,是小米首个开源推理大模型,定位为端侧推理先锋,专为移动设备优化,能耗仅为同类竞品的1/5,已深度集成至HyperOS 3.0,成为小米手机的“思维中枢”,负责端侧基础推理与交互任务。
MiMo-VL-7B:2025年6月发布,属于多模态视觉语言模型,定位为“智能体的眼睛”,在GUI交互和复杂视觉推理上刷新开源记录,可实现图像识别、图文交互等功能,为云端模型提供视觉输入支持。
MiMo V2 Flash:2025年12月发布,家族第二代云端旗舰开源模型,定位为“智能体的大脑”,主打高效推理与高性能,聚焦编码、智能体任务,以极致性价比为核心优势,是当前家族的核心主力模型。
MiMo-V2-Pro:与MiMo V2 Flash同属V2系列,定位为高端闭源模型,主打全场景全能性能,侧重复杂任务统筹与多模态融合,API定价高于MiMo V2 Flash,面向对性能要求极高的商业场景。
# 三、核心技术剖析
# 3.1 固有技术
MiMo V2 Flash继承了小米MiMo家族基座模型的核心底层技术,采用标准Transformer混合专家(MoE)架构,这是当前大模型领域主流的高效架构之一,核心逻辑是“按需激活专家”,避免全参数同时运行,从而降低算力消耗;同时,继承了上一代模型的常规对齐手段,包括监督微调(SFT)与强化学习(RL)结合的训练流程,确保模型输出符合人类偏好,减少无意义响应;此外,延续了家族模型对中文语境的优化适配,底层嵌入中文分词与语义理解模块,解决了部分开源模型中文处理生硬的问题。
# 3.2 创新技术
MiMo V2 Flash的核心竞争力在于三大创新技术,均围绕“高效、低成本、高性能”展开,解读如下:
1. 混合滑动窗口注意力(Hybrid SWA):这是一种兼顾长文本处理与推理效率的注意力机制,采用1:5比例的全局注意力与滑动窗口注意力交替运行,滑动窗口固定聚焦128个token(经官方验证为最优参数,调整为512会导致性能下降)。简单来说,就像一个超大型图书馆,平时只激活常用区域的书籍(滑动窗口),需要跨领域检索时才调动全局资源(全局注意力),既大幅降低了KV缓存的存储量(缩减约6倍),又完整保留了256k超长上下文窗口的处理能力,解决了传统长文本处理中“算力消耗大、响应慢”的痛点,同时与现有底层架构适配性更佳,无需复杂改造即可部署。
2. 多Token预测(MTP):打破传统模型“一次仅生成一个Token”的局限,引入“草稿生成-并行验证”流程,模型可一次性生成多个候选Token,主模型并行验证其有效性,相当于“一猜多词”。在配置三层MTP模块的情况下,平均可实现2.8-3.6个Token的有效接受长度,推理速度提升2.0-2.6倍,最终达成150tokens/秒的极速生成能力;同时,该技术还能优化训练过程,解决小批量在线策略强化学习中“长尾样本导致GPU资源闲置”的问题,不过受限于项目工期,目前尚未将其整合至强化学习训练循环中,小米已开源相关权重供开发者拓展。
3. 多教师在线策略蒸馏(MOPD):这是一种创新的训练后优化范式,借鉴了Thinking Machine团队的在线策略蒸馏技术,先通过SFT/RL构建多个领域专用专家教师模型,再让学生模型(MiMo V2 Flash)从自身策略分布中采样,利用教师模型提供的token级密集奖励进行优化。与传统SFT+RL训练流程相比,该技术仅需不到1/50的计算资源,就能实现与教师模型持平的性能,还能实现“学生模型迭代后升级为教师模型”的自增强闭环,大幅降低了模型训练的算力成本,这也是其性价比突出的核心原因之一。
# 四、表现评估
# 4.1 历史与现状
MiMo V2 Flash刚发布时,凭借“3090亿参数量+150亿激活参数”的独特设计、极致的推理速度与性价比,迅速跻身全球开源模型第一梯队,发布次日便成为开源社区热点,下载量快速攀升,被业内视为“开源赛道新变量”,打破了阿里Qwen、DeepSeek等厂商的垄断格局;截至2026年4月,该模型仍保持活跃,小米持续维护更新,开源社区已有大量二创与应用落地,但其行业地位略有波动,随着腾讯、阿里等大厂的开源模型迭代,其在通用能力场景的优势有所收缩,但在编码、智能体任务领域仍保持开源领先水平。
# 4.2 优势亮点
结合LMSYS Chatbot Arena、SuperCLUE及业内权威基准测试数据,MiMo V2 Flash的优势主要集中在三个核心维度,表现突出:
1. 编码能力:在软件工程基准测试SWE-Bench Verified中,得分达73.4%,超越所有开源模型,逼近闭源模型GPT-5-High(74.9%);在多语言编程基准SWE-Bench Multilingual中,解决率达71.7%,成为开源领域最擅长软件工程的模型之一,可独立修复多数真实软件仓库中的Bug,支持一键生成功能性HTML网页,能与Claude Code、Cursor等编码工具无缝协作,甚至可完成macOS模拟操作系统等复杂开发任务。
2. 推理与智能体能力:在AIME 2025数学竞赛中取得94.1分,GPQA-Diamond科学知识测试中获得83.7分,均位列开源模型前两名;在τ²-Bench智能体分类测试中,综合得分80.3分,其中通信类95.3分、零售类79.5分,展现出强大的多步推理与任务统筹能力;支持256k超长上下文窗口,在LongBench V2测试中得分60.6%,超越Kimi-K2 Thinking,可应对数百轮智能体交互和工具调用场景,BrowseComp搜索代理测试中,启用上下文管理后得分提升至58.3分,工具使用能力突出。
3. 效率与性价比:推理速度达150tokens/秒,比同类闭源模型Claude 4.5 Sonnet快2倍,常规问题平均响应时间在3秒以内,较DeepSeek-V3.2快50%以上;API定价极具竞争力,海外输入成本仅为GPT-4o的1/25,推理成本仅为Claude 4.5 Sonnet的2.5%,按3:1的输入输出比例计算,综合成本远低于行业平均水平,同时采用MIT开源协议,允许商业修改与再分发,开发者使用门槛极低。
# 4.3 缺点与不足
客观来看,MiMo V2 Flash仍存在明显短板,并非全能型模型,主要集中在三个方面:
1. 通用与创意能力偏弱:该模型侧重编码与智能体任务,在开放式问答、创意写作、哲学推理等需要“发散性思维”的场景中表现一般,在Arena-Hard创意写作测试中得分86.2分,略逊色于DeepSeek-V3.2等同类开源模型,拟人化表达的丰富度不足,难以满足高端创意创作需求。
2. 长文本处理稳定性不足:尽管支持256k超长上下文窗口,但在处理超长篇文档(如万字以上报告)时,仍存在细节遗忘、逻辑断层的问题,用户反馈显示,其在长文本修改场景中,可能出现建议遗漏或未同步更新的情况,长程注意力把控能力有待优化。
3. 多模态能力缺失:目前仅支持文本交互,不具备图像、音频解析能力,相较于阿里Qwen-VL、DeepSeek-VL等多模态开源模型,应用场景受限,无法满足图文结合、语音交互等复杂需求;同时,其架构探索仍处于初步阶段,设计方案的权衡分析不够充分,部分技术的稳定性仍需验证。
# 五、重大事件
1. 2025年11月,罗福莉加入小米担任MiMo大模型负责人,引发行业广泛关注:作为95后AI领域新星,罗福莉拥有北大保研背景、ACL顶会多篇发文经历,曾任职于阿里达摩院、DeepSeek,其加入不仅为小米大模型团队注入技术力量,也大幅提升了MiMo系列模型的市场关注度,为后续MiMo V2 Flash的发布奠定了舆论基础。
2. 2025年12月16日,MiMo V2 Flash发布并开源,引发开源社区热潮:发布当日,其技术报告被大量转发,GitHub仓库星标数量快速突破1万,成为同期开源模型中最受关注的产品,其“低成本、高速度”的设计理念被业内广泛讨论,被称为“开源大模型的性价比革命”。
3. 2026年3月,小米开源MTP模块权重并分享技术细节:罗福莉在社交平台解读MiMo V2 Flash的核心技术,公开混合滑动窗口注意力、MTP等技术的优化细节,同时开源三层MTP模块相关权重,鼓励开发者二次开发,进一步扩大了模型的生态影响力,吸引了大量开发者加入MiMo生态。
4. 2026年3月,MiMo V2 Flash跻身全球开源模型Top 2:在全球AI Agent测评基准中,该模型凭借出色的智能体任务表现,跻身开源模型Top 2,性能媲美国产头部开源模型DeepSeek-V3.2、Kimi-K2 Thinking,进一步巩固了其在开源赛道的地位,也让小米大模型正式跻身行业第一梯队。
社区真实评价
登录后才能发表评价,与极客们一起交流哦~