Name: MiMo V2 Flash
Rating: 9999 (1 reviews)
Author: Xiaomi

Question 1

MiMo V2 Flash是什么？

Accepted Answer

一、简介与定位

中国小米公司于2025年12月16日发布了一款开源旗舰级混合专家（MoE）架构大模型——MiMo V2 Flash，核心定位是高效推理、高性能编码与智能体任务适配，主打极致性价比与快速部署能力。

其名称中“MiMo”是小米大模型家族的统一命名前缀，“V2”代表该模型属于家族第二代产品，“Flash”意为“极速”，直观体现其核心优势——超快推理速度；核心功能涵盖高效代码生成与修复、智能体多步任务统筹、长文本处理及通用问答，官方采用开源+API调用双模式，无使用订阅门槛，API定价遵循小米性价比风格，国内输入0.7元/百万tokens、输出2.1元/百万tokens，海外输入0.1美元/百万tokens、输出0.3美元/百万tokens，无免费额度但成本极低，同期无兄弟模型发布，与家族内MiMo-V2-Pro形成定位差异。

目前该模型处于生命周期中的活跃主力阶段，尚未被迭代淘汰，是小米大模型生态的核心标杆产品；其最突出的核心特点是“大参数轻激活”，以3090亿总参数量、150亿激活参数的设计，实现了顶尖性能与极低算力成本、超快推理速度的三重平衡。

二、发展历程

2.1 研发背景

MiMo V2 Flash发布前，行业内主流大模型呈现“闭源高端化、开源规模化”的两极格局：闭源领域以GPT-4o、Claude 4.5 Sonnet为代表，性能顶尖但推理成本高昂；开源领域则有DeepSeek-V3.2、Kimi-K2 Thinking等头部产品，性能出众但参数量偏大、推理效率不足。同时，AI智能体应用进入爆发前夜，市场对“高性能、低成本、易部署”的开源大模型需求激增，而小米虽已布局大模型赛道，但缺乏一款能跻身开源第一梯队的旗舰产品，在此背景下，MiMo V2 Flash应运而生，聚焦“效率与性能的平衡”，填补小米在高端开源大模型领域的空白。

2.2 关键节点

2025年4月，小米推出首个推理大模型Xiaomi MiMo-7B，正式入局大模型赛道，为后续家族产品研发奠定基础；同年11月，被誉为“AI天才少女”的前DeepSeek研究员罗福莉官宣加入小米，担任MiMo大模型负责人，牵头启动MiMo V2系列模型的研发工作；经过一个多月的集中攻关与内测优化，2025年12月16日，小米正式发布MiMo V2 Flash并宣布开源；12月17日，在2025小米人车家全生态合作伙伴大会上，小米集团总裁卢伟冰正式官宣该模型开源上线，同步公布其核心技术细节与API定价；2026年3月，小米开源三层MTP模块相关权重，供开发者拓展开发，进一步完善模型生态。

2.3 家族构成

MiMo V2 Flash隶属于小米MiMo大模型家族，该家族采用“端侧+多模态+云端”的三角战略布局，各模型定位清晰、协同互补，具体如下：

Xiaomi MiMo-7B：2025年4月发布，是小米首个开源推理大模型，定位为端侧推理先锋，专为移动设备优化，能耗仅为同类竞品的1/5，已深度集成至HyperOS 3.0，成为小米手机的“思维中枢”，负责端侧基础推理与交互任务。

MiMo-VL-7B：2025年6月发布，属于多模态视觉语言模型，定位为“智能体的眼睛”，在GUI交互和复杂视觉推理上刷新开源记录，可实现图像识别、图文交互等功能，为云端模型提供视觉输入支持。

MiMo V2 Flash：2025年12月发布，家族第二代云端旗舰开源模型，定位为“智能体的大脑”，主打高效推理与高性能，聚焦编码、智能体任务，以极致性价比为核心优势，是当前家族的核心主力模型。

MiMo-V2-Pro：与MiMo V2 Flash同属V2系列，定位为高端闭源模型，主打全场景全能性能，侧重复杂任务统筹与多模态融合，API定价高于MiMo V2 Flash，面向对性能要求极高的商业场景。

三、核心技术剖析

3.1 固有技术

MiMo V2 Flash继承了小米MiMo家族基座模型的核心底层技术，采用标准Transformer混合专家（MoE）架构，这是当前大模型领域主流的高效架构之一，核心逻辑是“按需激活专家”，避免全参数同时运行，从而降低算力消耗；同时，继承了上一代模型的常规对齐手段，包括监督微调（SFT）与强化学习（RL）结合的训练流程，确保模型输出符合人类偏好，减少无意义响应；此外，延续了家族模型对中文语境的优化适配，底层嵌入中文分词与语义理解模块，解决了部分开源模型中文处理生硬的问题。

3.2 创新技术

MiMo V2 Flash的核心竞争力在于三大创新技术，均围绕“高效、低成本、高性能”展开，解读如下：

1. 混合滑动窗口注意力（Hybrid SWA）：这是一种兼顾长文本处理与推理效率的注意力机制，采用1:5比例的全局注意力与滑动窗口注意力交替运行，滑动窗口固定聚焦128个token（经官方验证为最优参数，调整为512会导致性能下降）。简单来说，就像一个超大型图书馆，平时只激活常用区域的书籍（滑动窗口），需要跨领域检索时才调动全局资源（全局注意力），既大幅降低了KV缓存的存储量（缩减约6倍），又完整保留了256k超长上下文窗口的处理能力，解决了传统长文本处理中“算力消耗大、响应慢”的痛点，同时与现有底层架构适配性更佳，无需复杂改造即可部署。

2. 多Token预测（MTP）：打破传统模型“一次仅生成一个Token”的局限，引入“草稿生成-并行验证”流程，模型可一次性生成多个候选Token，主模型并行验证其有效性，相当于“一猜多词”。在配置三层MTP模块的情况下，平均可实现2.8-3.6个Token的有效接受长度，推理速度提升2.0-2.6倍，最终达成150tokens/秒的极速生成能力；同时，该技术还能优化训练过程，解决小批量在线策略强化学习中“长尾样本导致GPU资源闲置”的问题，不过受限于项目工期，目前尚未将其整合至强化学习训练循环中，小米已开源相关权重供开发者拓展。

3. 多教师在线策略蒸馏（MOPD）：这是一种创新的训练后优化范式，借鉴了Thinking Machine团队的在线策略蒸馏技术，先通过SFT/RL构建多个领域专用专家教师模型，再让学生模型（MiMo V2 Flash）从自身策略分布中采样，利用教师模型提供的token级密集奖励进行优化。与传统SFT+RL训练流程相比，该技术仅需不到1/50的计算资源，就能实现与教师模型持平的性能，还能实现“学生模型迭代后升级为教师模型”的自增强闭环，大幅降低了模型训练的算力成本，这也是其性价比突出的核心原因之一。

四、表现评估

4.1 历史与现状

MiMo V2 Flash刚发布时，凭借“3090亿参数量+150亿激活参数”的独特设计、极致的推理速度与性价比，迅速跻身全球开源模型第一梯队，发布次日便成为开源社区热点，下载量快速攀升，被业内视为“开源赛道新变量”，打破了阿里Qwen、DeepSeek等厂商的垄断格局；截至2026年4月，该模型仍保持活跃，小米持续维护更新，开源社区已有大量二创与应用落地，但其行业地位略有波动，随着腾讯、阿里等大厂的开源模型迭代，其在通用能力场景的优势有所收缩，但在编码、智能体任务领域仍保持开源领先水平。

4.2 优势亮点

结合LMSYS Chatbot Arena、SuperCLUE及业内权威基准测试数据，MiMo V2 Flash的优势主要集中在三个核心维度，表现突出：

1. 编码能力：在软件工程基准测试SWE-Bench Verified中，得分达73.4%，超越所有开源模型，逼近闭源模型GPT-5-High（74.9%）；在多语言编程基准SWE-Bench Multilingual中，解决率达71.7%，成为开源领域最擅长软件工程的模型之一，可独立修复多数真实软件仓库中的Bug，支持一键生成功能性HTML网页，能与Claude Code、Cursor等编码工具无缝协作，甚至可完成macOS模拟操作系统等复杂开发任务。

2. 推理与智能体能力：在AIME 2025数学竞赛中取得94.1分，GPQA-Diamond科学知识测试中获得83.7分，均位列开源模型前两名；在τ²-Bench智能体分类测试中，综合得分80.3分，其中通信类95.3分、零售类79.5分，展现出强大的多步推理与任务统筹能力；支持256k超长上下文窗口，在LongBench V2测试中得分60.6%，超越Kimi-K2 Thinking，可应对数百轮智能体交互和工具调用场景，BrowseComp搜索代理测试中，启用上下文管理后得分提升至58.3分，工具使用能力突出。

3. 效率与性价比：推理速度达150tokens/秒，比同类闭源模型Claude 4.5 Sonnet快2倍，常规问题平均响应时间在3秒以内，较DeepSeek-V3.2快50%以上；API定价极具竞争力，海外输入成本仅为GPT-4o的1/25，推理成本仅为Claude 4.5 Sonnet的2.5%，按3:1的输入输出比例计算，综合成本远低于行业平均水平，同时采用MIT开源协议，允许商业修改与再分发，开发者使用门槛极低。

4.3 缺点与不足

客观来看，MiMo V2 Flash仍存在明显短板，并非全能型模型，主要集中在三个方面：

1. 通用与创意能力偏弱：该模型侧重编码与智能体任务，在开放式问答、创意写作、哲学推理等需要“发散性思维”的场景中表现一般，在Arena-Hard创意写作测试中得分86.2分，略逊色于DeepSeek-V3.2等同类开源模型，拟人化表达的丰富度不足，难以满足高端创意创作需求。

2. 长文本处理稳定性不足：尽管支持256k超长上下文窗口，但在处理超长篇文档（如万字以上报告）时，仍存在细节遗忘、逻辑断层的问题，用户反馈显示，其在长文本修改场景中，可能出现建议遗漏或未同步更新的情况，长程注意力把控能力有待优化。

3. 多模态能力缺失：目前仅支持文本交互，不具备图像、音频解析能力，相较于阿里Qwen-VL、DeepSeek-VL等多模态开源模型，应用场景受限，无法满足图文结合、语音交互等复杂需求；同时，其架构探索仍处于初步阶段，设计方案的权衡分析不够充分，部分技术的稳定性仍需验证。

五、重大事件

1. 2025年11月，罗福莉加入小米担任MiMo大模型负责人，引发行业广泛关注：作为95后AI领域新星，罗福莉拥有北大保研背景、ACL顶会多篇发文经历，曾任职于阿里达摩院、DeepSeek，其加入不仅为小米大模型团队注入技术力量，也大幅提升了MiMo系列模型的市场关注度，为后续MiMo V2 Flash的发布奠定了舆论基础。

2. 2025年12月16日，MiMo V2 Flash发布并开源，引发开源社区热潮：发布当日，其技术报告被大量转发，GitHub仓库星标数量快速突破1万，成为同期开源模型中最受关注的产品，其“低成本、高速度”的设计理念被业内广泛讨论，被称为“开源大模型的性价比革命”。

3. 2026年3月，小米开源MTP模块权重并分享技术细节：罗福莉在社交平台解读MiMo V2 Flash的核心技术，公开混合滑动窗口注意力、MTP等技术的优化细节，同时开源三层MTP模块相关权重，鼓励开发者二次开发，进一步扩大了模型的生态影响力，吸引了大量开发者加入MiMo生态。

4. 2026年3月，MiMo V2 Flash跻身全球开源模型Top 2：在全球AI Agent测评基准中，该模型凭借出色的智能体任务表现，跻身开源模型Top 2，性能媲美国产头部开源模型DeepSeek-V3.2、Kimi-K2 Thinking，进一步巩固了其在开源赛道的地位，也让小米大模型正式跻身行业第一梯队。

Question 2

MiMo V2 Flash的API价格是多少？

Accepted Answer

MiMo V2 Flash的API输入价格为0.6525元/百万Token，输出价格为2.1025元/百万Token。

Question 3

MiMo V2 Flash支持哪些功能？

Accepted Answer

MiMo V2 Flash的功能特性信息暂未收录。

Question 4

MiMo V2 Flash是国产模型吗？

Accepted Answer

是的，MiMo V2 Flash是由Xiaomi开发的国产AI大模型，可直接访问使用。

MiMo V2 Flash

📖
词条百科 Wiki

📑 章节目录

# 一、简介与定位

# 二、发展历程

# 2.1 研发背景

# 2.2 关键节点

# 2.3 家族构成

# 三、核心技术剖析

# 3.1 固有技术

# 3.2 创新技术

# 四、表现评估

# 4.1 历史与现状

# 4.2 优势亮点

# 4.3 缺点与不足

# 五、重大事件

📊
能力雷达星图

数据采集中

⏳模型家族构成

🔗 相关链接

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API

平台：OpenRouter 模型：MiMo-V2-Flash

⚡ 体验反馈与渠道测速

🤝 第三方测速反馈

⚔️
性能对标产品

Hy3 preview(high)

Qwen3.6-27B(Thinking)

MiMo V2.5 Pro Base

MiMo V2.5 Base

社区真实评价