Mercury 2

Mercury 2

mercury-2

机构/公司
Inception Labs(海外 🌍)
发布日期
未披露
版本状态
⭐ 当前主力
开源状态
🔒 闭源商业
能力模态
💬 大语言模型
上下文长度
未知
参数规模:暂未收录
主要语言:暂未收录
底层架构:暂未收录
开源协议:暂未收录
官方计费模式:参见下方【使用模块】

📖
词条百科 Wiki

# 一、简介与定位

美国硅谷初创公司Inception Labs于2026年2月24日,正式发布了其核心旗舰级推理型大语言模型Mercury 2,主打高速推理与生产级应用适配。

Mercury 2的命名中,“Mercury”取自罗马神话中的信使神,象征速度与高效,后缀“2”代表其是初代Mercury模型的迭代升级版本;核心功能聚焦于高延迟敏感场景的推理任务,涵盖代码编写与编辑、智能体循环、实时语音交互及搜索RAG操作等。官方使用门槛方面,普通用户可通过Inception官网申请访问权限,或直接在其聊天界面免费体验基础功能,开发者调用API无免费额度,按阶梯定价收费(输入每百万token 0.25美元,输出每百万token 0.75美元),且API全面兼容OpenAI标准,无过度使用限制;同期无全新“兄弟模型”发布,仅对初代Mercury及衍生的编程助手Mercury Coder进行了功能适配升级。

目前Mercury 2处于生命周期的活跃期,是Inception Labs当前的主力推理型大模型,其最突出的核心特点是采用扩散推理架构替代传统自回归模式,实现了速度与推理质量的双重突破,成为当前行业内速度领先的商用推理模型。

# 二、发展历程

# 2.1 研发背景

Mercury 2发布前,行业内主流大模型主要分为两类:一类是以GPT-5系列、Claude 4.5系列为代表的传统自回归模型,这类模型推理质量高、生态成熟,但存在核心痛点——生成速度慢,延迟随输出token数量增加而显著上升,且算力成本高昂;另一类是以Gemini 3 Flash为代表的轻量化推理模型,虽主打高速响应,但推理精度有所妥协,难以兼顾速度与质量。彼时,AI推理场景日益普及,实时语音交互、多智能体循环、大规模RAG检索等生产级应用对模型延迟提出了更高要求,传统自回归架构的瓶颈日益凸显,Inception Labs基于自身在扩散模型领域的技术积累,推出Mercury 2以突破这一行业困境。

# 2.2 关键节点

Inception Labs成立于2024年夏天,由斯坦福大学计算机科学教授Stefano Ermon联合UCLA、康奈尔大学教授共同创立,成立之初便确立了“用扩散模型替代自回归Transformer模型”的核心方向,启动Mercury系列模型的研发。2023年,其核心团队发表关键性论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,提出SEDD离散扩散模型,为Mercury系列的研发奠定了技术基础;2025年2月,初代Mercury模型发布,成为全球首个基于扩散模型的商业级语言模型,验证了扩散架构在文本生成领域的可行性。2025年11月,Inception Labs获得5000万美元融资,由Menlo Ventures领投,英伟达、微软等机构及AI大佬参投,为Mercury 2的研发注入资金支持;2026年初,Mercury 2进入内部测试阶段,重点优化扩散推理的收敛速度与推理精度,完成与OpenAI API的兼容性调试;2026年2月24日,Mercury 2正式面向全球发布,同步开放官网体验入口与API调用权限。

# 2.3 家族构成

Mercury系列模型目前主要包含三个核心成员,均围绕扩散推理架构打造,定位各有侧重:初代Mercury发布于2025年2月,是全球首个商业级扩散型语言模型,核心定位是验证技术可行性,主打生成速度提升,为后续迭代奠定基础,目前仍可正常使用,但已不再进行重大功能更新。Mercury Coder与初代Mercury同期发布,是专门针对编程场景优化的衍生模型,聚焦代码补全、重构、调试等任务,适配多种编程语言,与Mercury 2共享底层扩散架构,可看作是Mercury系列的“垂直场景专项版”。Mercury 2作为家族最新迭代产品,定位为旗舰级通用推理模型,在初代模型的基础上优化了推理精度与上下文窗口,支持更广泛的生产级应用场景,是当前Inception Labs的核心主推产品。

# 三、核心技术剖析

# 3.1 固有技术

Mercury 2继承了初代Mercury的核心底层技术,包括SEDD(Score Entropy Discrete Diffusion models)离散扩散架构,这一架构基于团队2023年发表的论文成果,核心是通过“分数熵”损失函数,将连续空间的扩散模型理论扩展到离散的文本token领域,解决了扩散模型在文本生成中的适配难题。同时,它延续了初代模型的基础对齐手段,采用有监督微调与人类反馈强化学习(RLHF)结合的方式,确保模型输出符合人类指令需求,且保留了与OpenAI API的兼容性,降低开发者的集成成本,这也是其能够快速落地生产级应用的重要基础。

# 3.2 创新技术

Mercury 2的核心创新的是对扩散推理架构的优化与工程化落地,打破了传统自回归模型的速度瓶颈,具体创新点如下:

  • 并行优化推理机制:摒弃传统自回归模型“逐字输出”的串行模式,采用“全局草稿+多轮迭代修正确”的并行方式,类似编辑修改文稿——先快速生成一整段文本草稿,再通过多轮去噪、对齐,同时优化所有token的语义连贯性,无需等待前一个token生成即可处理后续内容,从根本上降低了延迟,使其在英伟达GPU上可实现每秒1009个token的生成速度。
  • 动态推理力度调节:新增“reasoning_effort”参数,允许用户根据需求在速度与推理深度之间灵活切换。低推理模式下,模型优先保证响应速度,适合简单问答、快速文本生成等场景;高推理模式下,模型增加多轮全局评审,深入挖掘需求背后的潜在逻辑,提升复杂任务的处理精度,兼顾了不同场景的使用需求。
  • 长上下文与工具调用优化:将上下文窗口扩展至128K,可轻松处理万字级长文档的检索、总结的任务,且通过全局语义优化机制,减少长文本生成中的逻辑断裂与信息丢失问题;同时优化工具调用与JSON输出能力,无需额外二次开发,即可直接集成到多智能体工作流中,提升生产级应用的适配效率。

# 四、表现评估

# 4.1 历史与现状

Mercury 2刚发布时,凭借“扩散推理替代自回归”的创新架构和每秒千token的生成速度,迅速引发行业关注,被称为“世界上最快的推理型大语言模型”,发布后短期内获得英伟达等企业的公开祝贺,成为推理模型领域的“现象级产品”,主要面向开发者与企业用户,聚焦高延迟敏感场景。截至2026年4月,其热度虽略有回落,但仍保持行业领先地位,已被多家企业应用于实时语音交互、智能编程、广告投放优化等场景,API调用量稳步增长;同时,Inception Labs持续优化模型精度,弥补短板,逐步缩小与顶尖自回归模型在复杂推理场景的差距,巩固其在高速推理领域的优势。

# 4.2 优势亮点

结合第三方实测数据与行业基准测试,Mercury 2的优势主要集中在三个核心维度,表现突出:

  • 推理速度全球领先:在LMSYS Chatbot Arena的速度评测中,其端到端响应延迟低至1.7秒,生成速度达到每秒1009个token,是GPT-5 mini的14倍、Claude 4.5 Haiku的11倍,远超同期主流推理模型,在高并发、低延迟场景中表现碾压式优势。
  • 性价比突出:API调用成本远低于同类产品,输入每百万token仅0.25美元,输出每百万token 0.75美元,约为GPT-5 mini的四成、Claude 4.5 Haiku的六分之一,且在保持高速的同时,推理质量不打折,在GPQA(科学问答)、LCB(编程)等基准测试中,得分持平甚至超过部分轻量化推理模型。
  • 复杂场景适配性强:在代码生成与编辑场景,得到Zed联合创始人等业内人士认可,其快速响应能力可匹配开发者的思维节奏,减少等待成本;在多智能体循环、实时语音交互等场景,低延迟特性使其能够适配自然对话节奏,无需用户长时间等待,同时128K长上下文窗口也能满足长文档处理需求。此外,在AIME(数学)基准测试中,其得分达到91.1分,超过Gemini 3 Flash(推理版),打破了“高速必降精度”的行业认知。

# 4.3 缺点与不足

Mercury 2虽有显著优势,但仍存在明显短板,客观来看主要有三点:

  • 中文处理能力有待提升:目前模型的优化重点集中在英文场景,中文语义理解、多口音语音转写、长文本中文一致性控制等方面表现一般,第三方实测中,中文复杂句式的推理精度略低于同级别中文优化模型,存在少量语义偏差。
  • 复杂推理深度不足:尽管高推理模式可提升精度,但在需要多步骤深度推理的场景(如复杂数学证明、专业领域深度分析)中,表现仍不及GPT-5、Claude 4.5等顶尖自回归模型,偶尔会出现逻辑跳跃、结论片面的问题,难以处理极度复杂的决策类任务。
  • 生态成熟度不足:作为发布仅1个多月的模型,其周边生态尚未完善,第三方监控工具、可观测性方案较少,且社区支持力度远不及OpenAI、谷歌等巨头的模型,开发者遇到问题时,官方响应效率与解决方案丰富度有待提升;同时,模型暂无开源计划,限制了开发者的二次优化与定制化开发。

# 五、重大事件

  • 2023年核心论文发表:Inception Labs核心团队发表《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》论文,提出SEDD离散扩散模型,解决了扩散模型应用于文本生成的核心难题,该论文后续获得ICML 2024最佳论文奖,为Mercury 2的研发奠定了关键技术基础,也让团队在扩散模型领域获得行业认可。
  • 2025年11月获得大额融资:Inception Labs宣布获得5000万美元融资,领投方为Menlo Ventures,英伟达风投(NVentures)、微软M12等明星机构及吴恩达、卡帕西等AI大佬参投,这笔融资不仅为Mercury 2的研发提供了资金支持,也彰显了行业对扩散推理技术的认可,提升了Mercury系列模型的行业关注度。
  • 2026年2月24日正式发布并引发行业关注:Mercury 2正式发布,其每秒千token的生成速度打破行业纪录,发布后迅速引发科技圈热议,英伟达高级产品经理公开站台,称赞其展现了新架构与英伟达基础设施结合的强大潜力,多家科技媒体纷纷报道,使其成为短期内推理模型领域的焦点。
  • 发布后快速落地企业应用:截至2026年3月,Mercury 2已被Viant、Wispr Flow、Happyverse AI等多家企业采用,应用于广告投放优化、实时转录清理、AI虚拟形象交互等场景,企业反馈其低延迟、高性价比的特点显著提升了业务效率,成为其商业化落地的重要里程碑。

# 六、局限与妥协

# 6.1 客观局限

Mercury 2作为海外模型,国内用户与普通开发者使用时面临两大核心局限:一是地域限制,其官方聊天界面与API调用均存在IP封锁,国内用户无法直接访问,需借助特殊工具;二是支付门槛,API调用需绑定海外信用卡,国内普通开发者难以满足支付条件,且无人民币支付渠道,增加了使用难度。此外,模型的中文优化不足,也限制了国内用户在中文场景的使用体验;同时,其依赖英伟达高端GPU实现高速推理,普通开发者难以承担相关算力成本,进一步提升了使用门槛。

# 6.2 妥协办法

针对上述局限,可采用以下现实可行的妥协方案:国内用户可通过合规的云厂商代理平台,间接体验Mercury 2的核心功能,无需直接面对IP封锁与海外支付问题;开发者可借助受信任的第三方API代理平台,完成API调用与支付,降低使用门槛;对于无法承担高额算力成本或无法访问海外平台的用户,可选择国内基于扩散架构开发的平替模型,虽在速度上略有差距,但能满足日常推理与简单生产级应用需求。

由本站联合社区极客共同编撰,最后更新:2026-05-02 16:01:23
开放 Wiki 模式开启中

📊
能力雷达星图

权威基准

数据采集中

该模型太新啦!百科已抢先收录基础档案,权威雷达图评测数据正在快马加鞭测试中。

模型家族构成

🔗 相关链接

词条待补全

没有找到体验地址?去反馈!

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API
API价格
实时更新
平台:OpenRouter 模型:Mercury 2
输入(/1M)1.81
输出(/1M)5.44
价格由固定汇率换算而来,可能存在细微差距。

体验反馈与渠道测速

🤝 第三方测速反馈
🔌
平台:OpenRouter
模型:Mercury 2
状态:暂无反馈0 票
前往直达

⚔️
性能对标产品

Doubao-Seed-2.0-lite-260428(high)

Doubao-Seed-2.0-lite-260428(high)

ByteDance
Qwen3.7-Max(Thinking)

Qwen3.7-Max(Thinking)

Qwen
Claude Opus 4.7 (high)

Claude Opus 4.7 (high)

Anthropic
Gemini 3.5 Flash (high)

Gemini 3.5 Flash (high)

Google
💬

社区真实评价

🤐

登录后才能发表评价,与极客们一起交流哦~

正在拉取评论数据...