Name: Mercury 2
Rating: 9999 (1 reviews)
Author: Inception Labs

Question 1

Mercury 2是什么？

Accepted Answer

一、简介与定位

美国硅谷初创公司Inception Labs于2026年2月24日，正式发布了其核心旗舰级推理型大语言模型Mercury 2，主打高速推理与生产级应用适配。

Mercury 2的命名中，“Mercury”取自罗马神话中的信使神，象征速度与高效，后缀“2”代表其是初代Mercury模型的迭代升级版本；核心功能聚焦于高延迟敏感场景的推理任务，涵盖代码编写与编辑、智能体循环、实时语音交互及搜索RAG操作等。官方使用门槛方面，普通用户可通过Inception官网申请访问权限，或直接在其聊天界面免费体验基础功能，开发者调用API无免费额度，按阶梯定价收费（输入每百万token 0.25美元，输出每百万token 0.75美元），且API全面兼容OpenAI标准，无过度使用限制；同期无全新“兄弟模型”发布，仅对初代Mercury及衍生的编程助手Mercury Coder进行了功能适配升级。

目前Mercury 2处于生命周期的活跃期，是Inception Labs当前的主力推理型大模型，其最突出的核心特点是采用扩散推理架构替代传统自回归模式，实现了速度与推理质量的双重突破，成为当前行业内速度领先的商用推理模型。

二、发展历程

2.1 研发背景

Mercury 2发布前，行业内主流大模型主要分为两类：一类是以GPT-5系列、Claude 4.5系列为代表的传统自回归模型，这类模型推理质量高、生态成熟，但存在核心痛点——生成速度慢，延迟随输出token数量增加而显著上升，且算力成本高昂；另一类是以Gemini 3 Flash为代表的轻量化推理模型，虽主打高速响应，但推理精度有所妥协，难以兼顾速度与质量。彼时，AI推理场景日益普及，实时语音交互、多智能体循环、大规模RAG检索等生产级应用对模型延迟提出了更高要求，传统自回归架构的瓶颈日益凸显，Inception Labs基于自身在扩散模型领域的技术积累，推出Mercury 2以突破这一行业困境。

2.2 关键节点

Inception Labs成立于2024年夏天，由斯坦福大学计算机科学教授Stefano Ermon联合UCLA、康奈尔大学教授共同创立，成立之初便确立了“用扩散模型替代自回归Transformer模型”的核心方向，启动Mercury系列模型的研发。2023年，其核心团队发表关键性论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》，提出SEDD离散扩散模型，为Mercury系列的研发奠定了技术基础；2025年2月，初代Mercury模型发布，成为全球首个基于扩散模型的商业级语言模型，验证了扩散架构在文本生成领域的可行性。2025年11月，Inception Labs获得5000万美元融资，由Menlo Ventures领投，英伟达、微软等机构及AI大佬参投，为Mercury 2的研发注入资金支持；2026年初，Mercury 2进入内部测试阶段，重点优化扩散推理的收敛速度与推理精度，完成与OpenAI API的兼容性调试；2026年2月24日，Mercury 2正式面向全球发布，同步开放官网体验入口与API调用权限。

2.3 家族构成

Mercury系列模型目前主要包含三个核心成员，均围绕扩散推理架构打造，定位各有侧重：初代Mercury发布于2025年2月，是全球首个商业级扩散型语言模型，核心定位是验证技术可行性，主打生成速度提升，为后续迭代奠定基础，目前仍可正常使用，但已不再进行重大功能更新。Mercury Coder与初代Mercury同期发布，是专门针对编程场景优化的衍生模型，聚焦代码补全、重构、调试等任务，适配多种编程语言，与Mercury 2共享底层扩散架构，可看作是Mercury系列的“垂直场景专项版”。Mercury 2作为家族最新迭代产品，定位为旗舰级通用推理模型，在初代模型的基础上优化了推理精度与上下文窗口，支持更广泛的生产级应用场景，是当前Inception Labs的核心主推产品。

三、核心技术剖析

3.1 固有技术

Mercury 2继承了初代Mercury的核心底层技术，包括SEDD（Score Entropy Discrete Diffusion models）离散扩散架构，这一架构基于团队2023年发表的论文成果，核心是通过“分数熵”损失函数，将连续空间的扩散模型理论扩展到离散的文本token领域，解决了扩散模型在文本生成中的适配难题。同时，它延续了初代模型的基础对齐手段，采用有监督微调与人类反馈强化学习（RLHF）结合的方式，确保模型输出符合人类指令需求，且保留了与OpenAI API的兼容性，降低开发者的集成成本，这也是其能够快速落地生产级应用的重要基础。

3.2 创新技术

Mercury 2的核心创新的是对扩散推理架构的优化与工程化落地，打破了传统自回归模型的速度瓶颈，具体创新点如下：

并行优化推理机制：摒弃传统自回归模型“逐字输出”的串行模式，采用“全局草稿+多轮迭代修正确”的并行方式，类似编辑修改文稿——先快速生成一整段文本草稿，再通过多轮去噪、对齐，同时优化所有token的语义连贯性，无需等待前一个token生成即可处理后续内容，从根本上降低了延迟，使其在英伟达GPU上可实现每秒1009个token的生成速度。
动态推理力度调节：新增“reasoning_effort”参数，允许用户根据需求在速度与推理深度之间灵活切换。低推理模式下，模型优先保证响应速度，适合简单问答、快速文本生成等场景；高推理模式下，模型增加多轮全局评审，深入挖掘需求背后的潜在逻辑，提升复杂任务的处理精度，兼顾了不同场景的使用需求。
长上下文与工具调用优化：将上下文窗口扩展至128K，可轻松处理万字级长文档的检索、总结的任务，且通过全局语义优化机制，减少长文本生成中的逻辑断裂与信息丢失问题；同时优化工具调用与JSON输出能力，无需额外二次开发，即可直接集成到多智能体工作流中，提升生产级应用的适配效率。

四、表现评估

4.1 历史与现状

Mercury 2刚发布时，凭借“扩散推理替代自回归”的创新架构和每秒千token的生成速度，迅速引发行业关注，被称为“世界上最快的推理型大语言模型”，发布后短期内获得英伟达等企业的公开祝贺，成为推理模型领域的“现象级产品”，主要面向开发者与企业用户，聚焦高延迟敏感场景。截至2026年4月，其热度虽略有回落，但仍保持行业领先地位，已被多家企业应用于实时语音交互、智能编程、广告投放优化等场景，API调用量稳步增长；同时，Inception Labs持续优化模型精度，弥补短板，逐步缩小与顶尖自回归模型在复杂推理场景的差距，巩固其在高速推理领域的优势。

4.2 优势亮点

结合第三方实测数据与行业基准测试，Mercury 2的优势主要集中在三个核心维度，表现突出：

推理速度全球领先：在LMSYS Chatbot Arena的速度评测中，其端到端响应延迟低至1.7秒，生成速度达到每秒1009个token，是GPT-5 mini的14倍、Claude 4.5 Haiku的11倍，远超同期主流推理模型，在高并发、低延迟场景中表现碾压式优势。
性价比突出：API调用成本远低于同类产品，输入每百万token仅0.25美元，输出每百万token 0.75美元，约为GPT-5 mini的四成、Claude 4.5 Haiku的六分之一，且在保持高速的同时，推理质量不打折，在GPQA（科学问答）、LCB（编程）等基准测试中，得分持平甚至超过部分轻量化推理模型。
复杂场景适配性强：在代码生成与编辑场景，得到Zed联合创始人等业内人士认可，其快速响应能力可匹配开发者的思维节奏，减少等待成本；在多智能体循环、实时语音交互等场景，低延迟特性使其能够适配自然对话节奏，无需用户长时间等待，同时128K长上下文窗口也能满足长文档处理需求。此外，在AIME（数学）基准测试中，其得分达到91.1分，超过Gemini 3 Flash（推理版），打破了“高速必降精度”的行业认知。

4.3 缺点与不足

Mercury 2虽有显著优势，但仍存在明显短板，客观来看主要有三点：

中文处理能力有待提升：目前模型的优化重点集中在英文场景，中文语义理解、多口音语音转写、长文本中文一致性控制等方面表现一般，第三方实测中，中文复杂句式的推理精度略低于同级别中文优化模型，存在少量语义偏差。
复杂推理深度不足：尽管高推理模式可提升精度，但在需要多步骤深度推理的场景（如复杂数学证明、专业领域深度分析）中，表现仍不及GPT-5、Claude 4.5等顶尖自回归模型，偶尔会出现逻辑跳跃、结论片面的问题，难以处理极度复杂的决策类任务。
生态成熟度不足：作为发布仅1个多月的模型，其周边生态尚未完善，第三方监控工具、可观测性方案较少，且社区支持力度远不及OpenAI、谷歌等巨头的模型，开发者遇到问题时，官方响应效率与解决方案丰富度有待提升；同时，模型暂无开源计划，限制了开发者的二次优化与定制化开发。

五、重大事件

2023年核心论文发表：Inception Labs核心团队发表《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》论文，提出SEDD离散扩散模型，解决了扩散模型应用于文本生成的核心难题，该论文后续获得ICML 2024最佳论文奖，为Mercury 2的研发奠定了关键技术基础，也让团队在扩散模型领域获得行业认可。
2025年11月获得大额融资：Inception Labs宣布获得5000万美元融资，领投方为Menlo Ventures，英伟达风投（NVentures）、微软M12等明星机构及吴恩达、卡帕西等AI大佬参投，这笔融资不仅为Mercury 2的研发提供了资金支持，也彰显了行业对扩散推理技术的认可，提升了Mercury系列模型的行业关注度。
2026年2月24日正式发布并引发行业关注：Mercury 2正式发布，其每秒千token的生成速度打破行业纪录，发布后迅速引发科技圈热议，英伟达高级产品经理公开站台，称赞其展现了新架构与英伟达基础设施结合的强大潜力，多家科技媒体纷纷报道，使其成为短期内推理模型领域的焦点。
发布后快速落地企业应用：截至2026年3月，Mercury 2已被Viant、Wispr Flow、Happyverse AI等多家企业采用，应用于广告投放优化、实时转录清理、AI虚拟形象交互等场景，企业反馈其低延迟、高性价比的特点显著提升了业务效率，成为其商业化落地的重要里程碑。

六、局限与妥协

6.1 客观局限

Mercury 2作为海外模型，国内用户与普通开发者使用时面临两大核心局限：一是地域限制，其官方聊天界面与API调用均存在IP封锁，国内用户无法直接访问，需借助特殊工具；二是支付门槛，API调用需绑定海外信用卡，国内普通开发者难以满足支付条件，且无人民币支付渠道，增加了使用难度。此外，模型的中文优化不足，也限制了国内用户在中文场景的使用体验；同时，其依赖英伟达高端GPU实现高速推理，普通开发者难以承担相关算力成本，进一步提升了使用门槛。

6.2 妥协办法

针对上述局限，可采用以下现实可行的妥协方案：国内用户可通过合规的云厂商代理平台，间接体验Mercury 2的核心功能，无需直接面对IP封锁与海外支付问题；开发者可借助受信任的第三方API代理平台，完成API调用与支付，降低使用门槛；对于无法承担高额算力成本或无法访问海外平台的用户，可选择国内基于扩散架构开发的平替模型，虽在速度上略有差距，但能满足日常推理与简单生产级应用需求。

Question 2

Mercury 2的API价格是多少？

Accepted Answer

Mercury 2的API输入价格为1.8125元/百万Token，输出价格为5.4375元/百万Token。

Question 3

Mercury 2支持哪些功能？

Accepted Answer

Mercury 2的功能特性信息暂未收录。

Question 4

Mercury 2是国产模型吗？

Accepted Answer

Mercury 2是由Inception Labs开发的AI大模型，可能需要网络代理访问。

Mercury 2

📖
词条百科 Wiki

📑 章节目录

# 一、简介与定位

# 二、发展历程

# 2.1 研发背景

# 2.2 关键节点

# 2.3 家族构成

# 三、核心技术剖析

# 3.1 固有技术

# 3.2 创新技术

# 四、表现评估

# 4.1 历史与现状

# 4.2 优势亮点

# 4.3 缺点与不足

# 五、重大事件

# 六、局限与妥协

# 6.1 客观局限

# 6.2 妥协办法

📊
能力雷达星图

数据采集中

⏳模型家族构成

🔗 相关链接

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API

平台：OpenRouter 模型：Mercury 2

⚡ 体验反馈与渠道测速

🤝 第三方测速反馈

⚔️
性能对标产品

Doubao-Seed-2.0-lite-260428(high)

Qwen3.7-Max(Thinking)

Claude Opus 4.7 (high)

Gemini 3.5 Flash (high)

社区真实评价