Name: MiMo V2 Omni
Rating: 9999 (1 reviews)
Author: Xiaomi

Question 1

MiMo V2 Omni是什么？

Accepted Answer

一、简介与定位

中国小米公司于2026年3月19日发布了面向Agent时代的全模态旗舰基座大模型MiMo V2 Omni，核心定位是实现“感知与行动的统一”，聚焦多模态交互与复杂任务执行场景。

MiMo V2 Omni的名称中，“MiMo”是小米自研大模型系列的统一命名，“V2”代表其为系列第二代产品，“Omni”意为“全知全能”，对应其全模态融合的核心特性，原生具备文本、视觉、音频的统一感知，以及工具调用、函数执行、GUI操作等能力。官方使用门槛方面，该模型已开放API服务，支持256K上下文长度，定价为输入0.4美元/百万tokens、输出2美元/百万tokens，无强制订阅要求，发布初期联合五大Agent开发框架团队提供为期一周的限时免费接口支持，无明显使用地域限制；同期发布的“兄弟模型”包括旗舰推理模型MiMo V2 Pro和语音合成模型MiMo V2 TTS，三者共同构成小米MiMo V2系列矩阵。

目前MiMo V2 Omni处于生命周期的初期阶段，是小米当前主推的全模态核心主力模型，尚未被淘汰；其最突出的核心特点是从底层融合多模态编码器，实现感知与行动的深度绑定，在超长音频理解和多模态Agent执行能力上表现突出。

二、发展历程

2.1 研发背景

MiMo V2 Omni发布前，全球大模型市场已形成清晰的竞争格局，主流模型可分为三类：一是以GPT-5.2、Claude Opus 4.6为代表的海外闭源旗舰，性能强劲但成本高昂；二是以Gemini 3 Pro为代表的多模态模型，侧重跨模态感知但执行能力不足；三是国内的GLM-4.6、DeepSeek-V3.1等模型，性价比突出但多模态融合度较低。当时行业的核心痛点的是“感知与行动脱节”，多数多模态模型仅能实现多模态理解，无法高效将感知转化为实际操作，且高性能模型普遍存在推理成本过高的问题。在此背景下，小米瞄准Agent时代的核心需求，依托自身“人车家全生态”布局，研发了这款兼具全模态感知与高效执行能力、高性价比的基座模型，填补自身全模态大模型的空白，同时抢占多模态Agent赛道的先机。

2.2 关键节点

小米在大模型领域的布局早有积累，在推出MiMo V2系列前，已于2025年12月发布了纯文本推理模型MiMo V2 Flash，为后续全模态模型的研发奠定了技术基础。2026年初，小米正式立项MiMo V2 Omni，聚焦全模态融合与Agent执行能力，组建专项研发团队并加大投入，雷军曾公开表示小米当年在AI领域的研发和资本投入将超过160亿元。立项后不久，该模型以“Healer Alpha”为代号匿名上架全球最大API聚合平台OpenRouter进行盲测，未做任何宣传便实现调用量自然攀升，还在OpenClaw测评榜单PinchBench上拿下均分第一，获得市场初步认可。经过数月的内测优化，解决了多模态数据融合不流畅、执行效率不足等问题后，小米于2026年3月19日正式对外发布MiMo V2 Omni，同步开放API服务并推出限时免费体验活动。

2.3 家族构成

MiMo V2 Omni隶属于小米MiMo大模型家族，该家族目前已形成覆盖不同场景、不同定位的完整产品矩阵，核心成员包括：

MiMo V2 Flash：属于纯文本推理模型，主打高效推理和代码能力，定位为轻量型执行模型，适合轻量化Agent场景和纯文本任务处理，是MiMo V2系列中面向基础需求的入门级产品，此前已在中文文本推理场景中积累了一定的用户基础。

MiMo V2 Omni：全模态基座旗舰模型，也是家族中定位最高的核心产品，主打文本、视觉、音频的全模态融合，聚焦复杂多模态交互与Agent执行场景，可无缝接入各类Agent框架，是小米“人车家全生态”智能化闭环的核心支撑。

MiMo V2 Pro：旗舰推理模型，专为高强度Agent场景打造，拥有超1T总参数（42B激活参数）和1M超长上下文，综合智能排名全球第八、国内第二，性能接近Claude Opus 4.6但性价比更高，侧重纯文本场景下的复杂任务执行。

MiMo V2 TTS：语音合成专项模型，采用自研AudioTokenizer和多码本架构，支持任意自然语言风格描述、细粒度情感控制、方言及角色扮演，还具备高质量歌声合成能力，负责完善家族的语音交互体验，与MiMo V2 Omni协同实现“听、说、看、做”的全场景覆盖。

三、核心技术剖析

3.1 固有技术

MiMo V2 Omni继承了小米MiMo系列模型的核心底层技术，首先沿用了上一代MiMo V2 Flash的基础Transformer架构，保障了文本理解和逻辑推理的基础能力，同时继承了其高效的对齐手段，确保模型输出符合人类指令预期，减少无效响应。其次，它借鉴了MiMo V2 Pro的混合专家架构（MoE）核心思路，通过多专家分工协作，在保障模型性能的同时，控制推理过程中的无效计算，为全模态数据处理提供了高效的架构支撑。此外，该模型还延续了小米大模型一贯的“低成本推理”设计理念，继承了稀疏激活的基础逻辑，为后续创新优化奠定了基础。

3.2 创新技术

MiMo V2 Omni的核心创新集中在全模态融合与执行能力优化上，具体可分为以下3点，均以通俗易懂的方式解读：

1. 统一全模态编码器架构：这是该模型最核心的创新点，打破了传统多模态模型“多编码器拼接”的模式，从底层构建了融合文本、视觉、音频的统一编码器，形成统一的感知流。简单来说，传统多模态模型是“分开处理文字、图片、声音，再拼接结果”，而MiMo V2 Omni是“用一个‘大脑’同时理解文字、图片、声音”，实现了感知层面的深度融合，避免了不同模态数据衔接不畅的问题，让模型能更精准地理解跨模态场景（如视频+语音的联合推理）。

2. 混合注意力机制优化：采用“全局注意力+滑动窗口注意力”的混合设计，并且将两者的比例优化至7:1，既保障了全局上下文的理解能力，又将90%注意力计算的复杂度从平方级降至线性级。通俗来讲，就是模型在处理超长文本、超长音频时，既能记住整体逻辑，又能精准捕捉细节，解决了传统多模态模型处理长音频、长文本时容易遗忘关键信息的痛点，这也是其能支持超10小时连续音频理解的核心原因。

3. 感知与行动深度绑定的训练配方：不同于传统多模态模型“只专注于理解”的训练思路，MiMo V2 Omni的训练目标同时涵盖“场景是什么、接下来会发生什么、现在该做什么”，将多模态感知能力与Agent执行能力（工具调用、GUI操作等）在训练阶段就深度绑定。简单来说，模型不仅能“看懂、听懂”，还能直接“动手操作”，无需额外的适配开发，就能无缝接入OpenClaw等Agent框架，完成浏览器操控、办公文档生成等复杂任务。

四、表现评估

4.1 历史与现状

MiMo V2 Omni刚发布时，凭借其全模态融合的差异化优势和高性价比，迅速在行业内引发关注，发布初期便在OpenClaw测评榜单PinchBench上取得均分第一的成绩，同时依托小米的生态资源，快速接入WPS、小米浏览器等场景，成为当时国产全模态大模型中最受关注的产品之一，行业地位稳居国产全模态模型第一梯队。截至2026年4月，该模型发布仅半个多月，已完成初步的迭代优化，全模态感知和智能体行动能力更趋稳定，API调用量持续攀升，依旧保持国产全模态旗舰模型的核心地位，但随着行业内其他全模态模型的迭代，其在部分细分场景的优势逐渐被缩小，且在纯文本场景的竞争力仍有提升空间。

4.2 优势亮点

结合业内评测数据和实际场景表现，MiMo V2 Omni的优势主要集中在三个核心维度，均有明确数据支撑：

1. 音频理解能力突出：根据行业实测数据，该模型支持超10小时连续长音频的深度理解，可完成环境声分类、多说话人分离、音频与视觉联合推理等任务，综合表现超越Gemini 3 Pro，跻身当前最强音频理解基座模型之列，在播客解读、长语音转写与分析等场景中表现优异。

2. 图像理解实力强劲：在多学科视觉推理与复杂图表分析任务中，其表现超越Claude Opus 4.6，逼近Gemini 3 Pro等顶尖闭源模型水平，能够精准解读复杂图表数据、识别图像中的细节信息，适配办公场景中的图表分析、设计场景中的图像解读等需求。

3. Agent执行能力出色：在OpenClaw的PinchBench（工具调用稳定性）评测中得分优异，拿下均分第一，在真实浏览器环境完成任务的能力（MM-BrowserComp得分52.0）显著高于Gemini 3 Pro（37.2）和GPT-5.2（47.4），可自主完成浏览器选品比价、客服交互、短视频制作发布等复杂操作，遇异常时能实时修正策略。

此外，在非线智能ReLE评测中，该模型整体准确率达到68.6%，在教育领域（56.2%）、法律与行政公务领域（83.3%）表现突出，且响应速度相比上一代模型提速约58%，输出更加精炼。

4.3 缺点与不足

客观来看，MiMo V2 Omni仍存在明显短板，主要集中在以下几点，无任何美化，贴合实际使用体验：

1. 纯文本场景竞争力不足：在非线智能ReLE评测中，其纯文本准确率虽达到68.6%，但与同档位的GPT-5.2（68.9%）、GLM-4.6（68.1%）相比无明显优势，且低于头部开源模型（如DeepSeek-V3.2-Think 70.9%），尤其在语言与指令遵从、金融领域表现出现回调，相比上一代MiMo V2 Flash分别下降4.5个百分点。

2. 成本偏高：尽管其推理成本相比海外顶尖闭源模型有优势，但相比国内同类模型，成本上涨明显，输出价格从MiMo V2 Flash的2.1元/百万token上调至14.0元/百万token，每千次调用成本约34.8元，高于DeepSeek-V3.1-Think（24.8元/千次）等同类产品，对个人开发者和中小团队不够友好。

3. 部分场景稳定性不足：作为刚发布不久的模型，在复杂跨模态场景（如长视频+多语音联合推理）中，偶尔会出现模态衔接不畅、细节遗漏的问题；在工具调用的复杂场景中，少数情况下会出现策略判断失误，无法自主解决突发异常（如网页加载失败）。

4. 生态适配仍不完善：目前仅接入小米自有生态（WPS、小米浏览器等）和少数Agent框架，与第三方生态的适配不足，部分办公、设计类工具无法直接调用，限制了其落地场景的拓展。

五、重大事件

1. 匿名盲测表现惊艳（2026年初）：MiMo V2 Omni以“Healer Alpha”为代号匿名上架OpenRouter平台进行盲测，未做任何宣传的情况下，调用量自然攀升至平台前列，且在OpenClaw测评榜单PinchBench上拿下均分第一，证明了其核心能力的认可度，为后续正式发布奠定了口碑基础。

2. 正式发布并开放API（2026年3月19日）：小米同步发布MiMo V2 Omni、MiMo V2 Pro、MiMo V2 TTS三款模型，其中MiMo V2 Omni作为全模态旗舰，凭借“感知与行动统一”的定位引发行业关注，发布当日便登上科技类话题热搜，相关话题阅读量超千万，成为国产大模型领域的焦点事件。

3. 快速接入小米生态与第三方框架（2026年3月下旬）：发布后一周内，MiMo V2 Omni先后接入金山办公WPS、小米浏览器，实现办公文档生成、浏览器自动化操作等场景落地；同时联合OpenClaw、OpenCode等五大Agent开发框架团队，提供为期一周的限时免费接口支持，吸引大量开发者接入测试，推动其快速形成开发者生态。

4. 核心负责人公开研发细节（2026年3月下旬）：小米MiMo大模型核心负责人罗福莉在海外社交平台公开研发细节，提到“对话测试不足100次的团队成员可直接离职”的严格要求，既展现了小米对模型研发的高标准，也引发行业对大模型研发管理模式的讨论，进一步提升了MiMo V2 Omni的曝光度。

Question 2

MiMo V2 Omni的API价格是多少？

Accepted Answer

MiMo V2 Omni的API输入价格为2.9000元/百万Token，输出价格为14.5000元/百万Token。

Question 3

MiMo V2 Omni支持哪些功能？

Accepted Answer

MiMo V2 Omni的功能特性信息暂未收录。

Question 4

MiMo V2 Omni是国产模型吗？

Accepted Answer

是的，MiMo V2 Omni是由Xiaomi开发的国产AI大模型，可直接访问使用。

MiMo V2 Omni

📖
词条百科 Wiki

📑 章节目录

# 一、简介与定位

# 二、发展历程

# 2.1 研发背景

# 2.2 关键节点

# 2.3 家族构成

# 三、核心技术剖析

# 3.1 固有技术

# 3.2 创新技术

# 四、表现评估

# 4.1 历史与现状

# 4.2 优势亮点

# 4.3 缺点与不足

# 五、重大事件

📊
能力雷达星图

数据采集中

⏳模型家族构成

🔗 相关链接

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API

平台：OpenRouter 模型：MiMo-V2-Omni

⚡ 体验反馈与渠道测速

🤝 第三方测速反馈

⚔️
性能对标产品

Doubao-Seed-2.0-lite-260428(high)

Qwen3.7-Max(Thinking)

Claude Opus 4.7 (high)

Gemini 3.5 Flash (high)

社区真实评价