# 一、简介与定位
中国小米公司于2026年3月19日发布了面向Agent时代的全模态旗舰基座大模型MiMo V2 Omni,核心定位是实现“感知与行动的统一”,聚焦多模态交互与复杂任务执行场景。
MiMo V2 Omni的名称中,“MiMo”是小米自研大模型系列的统一命名,“V2”代表其为系列第二代产品,“Omni”意为“全知全能”,对应其全模态融合的核心特性,原生具备文本、视觉、音频的统一感知,以及工具调用、函数执行、GUI操作等能力。官方使用门槛方面,该模型已开放API服务,支持256K上下文长度,定价为输入0.4美元/百万tokens、输出2美元/百万tokens,无强制订阅要求,发布初期联合五大Agent开发框架团队提供为期一周的限时免费接口支持,无明显使用地域限制;同期发布的“兄弟模型”包括旗舰推理模型MiMo V2 Pro和语音合成模型MiMo V2 TTS,三者共同构成小米MiMo V2系列矩阵。
目前MiMo V2 Omni处于生命周期的初期阶段,是小米当前主推的全模态核心主力模型,尚未被淘汰;其最突出的核心特点是从底层融合多模态编码器,实现感知与行动的深度绑定,在超长音频理解和多模态Agent执行能力上表现突出。
# 二、发展历程
# 2.1 研发背景
MiMo V2 Omni发布前,全球大模型市场已形成清晰的竞争格局,主流模型可分为三类:一是以GPT-5.2、Claude Opus 4.6为代表的海外闭源旗舰,性能强劲但成本高昂;二是以Gemini 3 Pro为代表的多模态模型,侧重跨模态感知但执行能力不足;三是国内的GLM-4.6、DeepSeek-V3.1等模型,性价比突出但多模态融合度较低。当时行业的核心痛点的是“感知与行动脱节”,多数多模态模型仅能实现多模态理解,无法高效将感知转化为实际操作,且高性能模型普遍存在推理成本过高的问题。在此背景下,小米瞄准Agent时代的核心需求,依托自身“人车家全生态”布局,研发了这款兼具全模态感知与高效执行能力、高性价比的基座模型,填补自身全模态大模型的空白,同时抢占多模态Agent赛道的先机。
# 2.2 关键节点
小米在大模型领域的布局早有积累,在推出MiMo V2系列前,已于2025年12月发布了纯文本推理模型MiMo V2 Flash,为后续全模态模型的研发奠定了技术基础。2026年初,小米正式立项MiMo V2 Omni,聚焦全模态融合与Agent执行能力,组建专项研发团队并加大投入,雷军曾公开表示小米当年在AI领域的研发和资本投入将超过160亿元。立项后不久,该模型以“Healer Alpha”为代号匿名上架全球最大API聚合平台OpenRouter进行盲测,未做任何宣传便实现调用量自然攀升,还在OpenClaw测评榜单PinchBench上拿下均分第一,获得市场初步认可。经过数月的内测优化,解决了多模态数据融合不流畅、执行效率不足等问题后,小米于2026年3月19日正式对外发布MiMo V2 Omni,同步开放API服务并推出限时免费体验活动。
# 2.3 家族构成
MiMo V2 Omni隶属于小米MiMo大模型家族,该家族目前已形成覆盖不同场景、不同定位的完整产品矩阵,核心成员包括:
MiMo V2 Flash:属于纯文本推理模型,主打高效推理和代码能力,定位为轻量型执行模型,适合轻量化Agent场景和纯文本任务处理,是MiMo V2系列中面向基础需求的入门级产品,此前已在中文文本推理场景中积累了一定的用户基础。
MiMo V2 Omni:全模态基座旗舰模型,也是家族中定位最高的核心产品,主打文本、视觉、音频的全模态融合,聚焦复杂多模态交互与Agent执行场景,可无缝接入各类Agent框架,是小米“人车家全生态”智能化闭环的核心支撑。
MiMo V2 Pro:旗舰推理模型,专为高强度Agent场景打造,拥有超1T总参数(42B激活参数)和1M超长上下文,综合智能排名全球第八、国内第二,性能接近Claude Opus 4.6但性价比更高,侧重纯文本场景下的复杂任务执行。
MiMo V2 TTS:语音合成专项模型,采用自研AudioTokenizer和多码本架构,支持任意自然语言风格描述、细粒度情感控制、方言及角色扮演,还具备高质量歌声合成能力,负责完善家族的语音交互体验,与MiMo V2 Omni协同实现“听、说、看、做”的全场景覆盖。
# 三、核心技术剖析
# 3.1 固有技术
MiMo V2 Omni继承了小米MiMo系列模型的核心底层技术,首先沿用了上一代MiMo V2 Flash的基础Transformer架构,保障了文本理解和逻辑推理的基础能力,同时继承了其高效的对齐手段,确保模型输出符合人类指令预期,减少无效响应。其次,它借鉴了MiMo V2 Pro的混合专家架构(MoE)核心思路,通过多专家分工协作,在保障模型性能的同时,控制推理过程中的无效计算,为全模态数据处理提供了高效的架构支撑。此外,该模型还延续了小米大模型一贯的“低成本推理”设计理念,继承了稀疏激活的基础逻辑,为后续创新优化奠定了基础。
# 3.2 创新技术
MiMo V2 Omni的核心创新集中在全模态融合与执行能力优化上,具体可分为以下3点,均以通俗易懂的方式解读:
1. 统一全模态编码器架构:这是该模型最核心的创新点,打破了传统多模态模型“多编码器拼接”的模式,从底层构建了融合文本、视觉、音频的统一编码器,形成统一的感知流。简单来说,传统多模态模型是“分开处理文字、图片、声音,再拼接结果”,而MiMo V2 Omni是“用一个‘大脑’同时理解文字、图片、声音”,实现了感知层面的深度融合,避免了不同模态数据衔接不畅的问题,让模型能更精准地理解跨模态场景(如视频+语音的联合推理)。
2. 混合注意力机制优化:采用“全局注意力+滑动窗口注意力”的混合设计,并且将两者的比例优化至7:1,既保障了全局上下文的理解能力,又将90%注意力计算的复杂度从平方级降至线性级。通俗来讲,就是模型在处理超长文本、超长音频时,既能记住整体逻辑,又能精准捕捉细节,解决了传统多模态模型处理长音频、长文本时容易遗忘关键信息的痛点,这也是其能支持超10小时连续音频理解的核心原因。
3. 感知与行动深度绑定的训练配方:不同于传统多模态模型“只专注于理解”的训练思路,MiMo V2 Omni的训练目标同时涵盖“场景是什么、接下来会发生什么、现在该做什么”,将多模态感知能力与Agent执行能力(工具调用、GUI操作等)在训练阶段就深度绑定。简单来说,模型不仅能“看懂、听懂”,还能直接“动手操作”,无需额外的适配开发,就能无缝接入OpenClaw等Agent框架,完成浏览器操控、办公文档生成等复杂任务。
# 四、表现评估
# 4.1 历史与现状
MiMo V2 Omni刚发布时,凭借其全模态融合的差异化优势和高性价比,迅速在行业内引发关注,发布初期便在OpenClaw测评榜单PinchBench上取得均分第一的成绩,同时依托小米的生态资源,快速接入WPS、小米浏览器等场景,成为当时国产全模态大模型中最受关注的产品之一,行业地位稳居国产全模态模型第一梯队。截至2026年4月,该模型发布仅半个多月,已完成初步的迭代优化,全模态感知和智能体行动能力更趋稳定,API调用量持续攀升,依旧保持国产全模态旗舰模型的核心地位,但随着行业内其他全模态模型的迭代,其在部分细分场景的优势逐渐被缩小,且在纯文本场景的竞争力仍有提升空间。
# 4.2 优势亮点
结合业内评测数据和实际场景表现,MiMo V2 Omni的优势主要集中在三个核心维度,均有明确数据支撑:
1. 音频理解能力突出:根据行业实测数据,该模型支持超10小时连续长音频的深度理解,可完成环境声分类、多说话人分离、音频与视觉联合推理等任务,综合表现超越Gemini 3 Pro,跻身当前最强音频理解基座模型之列,在播客解读、长语音转写与分析等场景中表现优异。
2. 图像理解实力强劲:在多学科视觉推理与复杂图表分析任务中,其表现超越Claude Opus 4.6,逼近Gemini 3 Pro等顶尖闭源模型水平,能够精准解读复杂图表数据、识别图像中的细节信息,适配办公场景中的图表分析、设计场景中的图像解读等需求。
3. Agent执行能力出色:在OpenClaw的PinchBench(工具调用稳定性)评测中得分优异,拿下均分第一,在真实浏览器环境完成任务的能力(MM-BrowserComp得分52.0)显著高于Gemini 3 Pro(37.2)和GPT-5.2(47.4),可自主完成浏览器选品比价、客服交互、短视频制作发布等复杂操作,遇异常时能实时修正策略。
此外,在非线智能ReLE评测中,该模型整体准确率达到68.6%,在教育领域(56.2%)、法律与行政公务领域(83.3%)表现突出,且响应速度相比上一代模型提速约58%,输出更加精炼。
# 4.3 缺点与不足
客观来看,MiMo V2 Omni仍存在明显短板,主要集中在以下几点,无任何美化,贴合实际使用体验:
1. 纯文本场景竞争力不足:在非线智能ReLE评测中,其纯文本准确率虽达到68.6%,但与同档位的GPT-5.2(68.9%)、GLM-4.6(68.1%)相比无明显优势,且低于头部开源模型(如DeepSeek-V3.2-Think 70.9%),尤其在语言与指令遵从、金融领域表现出现回调,相比上一代MiMo V2 Flash分别下降4.5个百分点。
2. 成本偏高:尽管其推理成本相比海外顶尖闭源模型有优势,但相比国内同类模型,成本上涨明显,输出价格从MiMo V2 Flash的2.1元/百万token上调至14.0元/百万token,每千次调用成本约34.8元,高于DeepSeek-V3.1-Think(24.8元/千次)等同类产品,对个人开发者和中小团队不够友好。
3. 部分场景稳定性不足:作为刚发布不久的模型,在复杂跨模态场景(如长视频+多语音联合推理)中,偶尔会出现模态衔接不畅、细节遗漏的问题;在工具调用的复杂场景中,少数情况下会出现策略判断失误,无法自主解决突发异常(如网页加载失败)。
4. 生态适配仍不完善:目前仅接入小米自有生态(WPS、小米浏览器等)和少数Agent框架,与第三方生态的适配不足,部分办公、设计类工具无法直接调用,限制了其落地场景的拓展。
# 五、重大事件
1. 匿名盲测表现惊艳(2026年初):MiMo V2 Omni以“Healer Alpha”为代号匿名上架OpenRouter平台进行盲测,未做任何宣传的情况下,调用量自然攀升至平台前列,且在OpenClaw测评榜单PinchBench上拿下均分第一,证明了其核心能力的认可度,为后续正式发布奠定了口碑基础。
2. 正式发布并开放API(2026年3月19日):小米同步发布MiMo V2 Omni、MiMo V2 Pro、MiMo V2 TTS三款模型,其中MiMo V2 Omni作为全模态旗舰,凭借“感知与行动统一”的定位引发行业关注,发布当日便登上科技类话题热搜,相关话题阅读量超千万,成为国产大模型领域的焦点事件。
3. 快速接入小米生态与第三方框架(2026年3月下旬):发布后一周内,MiMo V2 Omni先后接入金山办公WPS、小米浏览器,实现办公文档生成、浏览器自动化操作等场景落地;同时联合OpenClaw、OpenCode等五大Agent开发框架团队,提供为期一周的限时免费接口支持,吸引大量开发者接入测试,推动其快速形成开发者生态。
4. 核心负责人公开研发细节(2026年3月下旬):小米MiMo大模型核心负责人罗福莉在海外社交平台公开研发细节,提到“对话测试不足100次的团队成员可直接离职”的严格要求,既展现了小米对模型研发的高标准,也引发行业对大模型研发管理模式的讨论,进一步提升了MiMo V2 Omni的曝光度。
社区真实评价
登录后才能发表评价,与极客们一起交流哦~