# 一、简介与定位
中国的阶跃星辰于2025年7月25日发布了一款主打开源、多模态推理的旗舰级基础大模型Step 3,核心定位是兼顾智能性能与部署成本,面向全球企业和开发者提供高适配性的多模态AI解决方案。
Step 3的名称中,“Step”寓意阶跃星辰的技术迭代步伐,数字“3”代表其作为家族第三代基座模型的身份,彰显技术上的进阶与突破;核心功能涵盖文本与视觉多模态理解、复杂推理、跨场景适配等,可完成图像识别、多模态信息整合、创意生成等任务。官方使用门槛友好,个人用户可在阶跃AI官网(stepfun.com)和阶跃AI App免费体验基础功能,API暂未明确公开免费额度,企业用户需通过商务合作获取授权;同期发布的“兄弟模型”包括Step 3o Vision(多模理解生成一体化模型)和Step-Audio 2(第二代端到端语音大模型)。
截至2026年4月,Step 3仍是阶跃星辰的最新主力基座模型,未被淘汰且持续迭代优化,其最突出的核心特点是“多开好省”,即多模态、开源、性能优异、效率高且成本低,是当前开源多模态推理领域的标杆产品之一。
# 二、发展历程
# 2.1 研发背景
Step 3发布前,行业内主流大模型呈现“闭源高端化、开源同质化”的格局:闭源领域有OpenAI o3、Gemini 2.5 Pro、Claude Opus 4等顶尖产品,性能强劲但使用成本高昂、无法自主部署;开源领域则以DeepSeek-R1、Llama系列等为主,虽可免费使用,但多存在多模态能力薄弱、推理效率低、适配国产芯片效果差等痛点。彼时大模型行业已从“训练竞赛”进入“推理应用”时代,推理成本居高不下、特定场景适配难、多模态能力调用不全成为阻碍技术落地的“三座大山”,Step 3正是在这样的行业局势下诞生,旨在打造“智能、成本、效率、通用性”兼顾的实用型推理模型。
# 2.2 关键节点
阶跃星辰在推出Step 1、Step 2两代基座模型并完成技术积累后,于2024年底启动Step 3的研发立项,核心聚焦多模态融合与推理效率优化两大方向;2025年上半年,模型进入内部测试阶段,重点测试视觉理解、跨硬件适配及推理成本控制能力,期间完成多轮迭代调整;2025年7月25日,在上海召开“Step 3大模型发布会暨生态联盟成立大会”,正式向公众发布Step 3;2025年7月31日,Step 3如期面向全球企业和开发者开源,同时完成与华为昇腾等国产芯片的初步适配;2025年下半年至2026年,阶跃星辰持续推进模型优化,拓展行业应用场景,完善“模芯生态创新联盟”布局。
# 2.3 家族构成
Step 3所属的阶跃星辰Step系列大模型,采用“1+N”矩阵布局,“1”为核心基座模型,“N”为多领域衍生模型,各模型定位清晰、互补性强:
Step 1:阶跃星辰早期推出的基础大模型,以文本理解与生成为核心,定位为入门级基座模型,主要用于验证底层技术架构,为后续迭代奠定基础,目前已逐步退出主力序列。
Step 2:第二代基座模型,在Step 1的基础上提升了文本推理能力,优化了部署效率,但未实现多模态融合,定位为过渡性基座模型,主要服务于纯文本场景的企业用户,当前仍可使用但不再重点迭代。
Step 3:第三代旗舰级基座模型,也是目前家族的核心产品,首个全尺寸、原生多模态推理模型,兼顾性能与成本,开源且适配多硬件平台,是面向推理时代的主力模型。
Step 3o Vision:Step 3的多模态衍生模型,专注于视觉理解与生成一体化,可完成图像编辑、场景识别、视觉内容创作等任务,与Step 3协同覆盖视觉相关应用场景。
Step-Audio 2:第二代端到端语音大模型,负责语音识别、语音生成、实时语音交互等任务,与Step 3、Step 3o Vision形成多模态协同,完善全场景交互能力。
# 三、核心技术剖析
# 3.1 固有技术
Step 3继承了阶跃星辰上一代模型的核心底层技术,同时借鉴了行业成熟架构的优势:底层采用MoE(混合专家模型)架构,这一架构并非Step 3首创,但Step 3对其进行了优化适配,延续了MoE架构“参数量大但计算高效”的特点,通过激活部分专家模块,在保证模型性能的同时降低计算成本;对齐手段上,延续了常规的监督微调(SFT)与人类反馈强化学习(RLHF)结合的方式,确保模型输出符合人类认知与使用需求,避免出现偏离常识的回复;同时继承了上一代模型的中文语义理解优化技术,适配中文场景的表达习惯,减少语义偏差。
# 3.2 创新技术
Step 3的核心创新集中在架构优化、硬件适配与多模态融合三大方向,均围绕“降本增效、提升实用价值”展开,具体解读如下:
1. 原创MFA架构:即Multi-matrix Factorization Attention(多矩阵分解注意力)架构,是Step 3最核心的技术创新。与传统注意力机制相比,MFA架构通过增加注意力头的数量和维度、采用激进的低秩分解策略以及单键值(QK)头设计,在最大限度节省计算资源的同时,尽可能接近理论性能上限;更关键的是,该架构专门针对国产芯片进行了优化,适配国产芯片在制程和HBM(高带宽显存)上的限制,解决了主流架构在国产芯片上算力与显存带宽不足的痛点。
2. 模型-系统协同设计:Step 3在研发初期就兼顾模型性能与硬件适配,实现了“模型架构与硬件特性”的深度协同。不同于传统模型“先研发、后适配”的模式,Step 3的架构设计充分考虑了不同硬件平台的特性,尤其是国产芯片的计算特点,其计算密度(128倍于KV访存量)完美匹配国产芯片,使得模型在国产芯片上的推理效率大幅提升,同时也能适配NVIDIA等国际芯片,实现多硬件兼容。
3. 原生多模态融合技术:Step 3并非“文本模型+视觉模型”的简单拼接,而是原生支持文本与视觉多模态输入输出,通过统一的底层架构实现多模态信息的深度整合。其视觉理解模块可精准识别图像中的细节信息(如物体品种、数量、场景),并与文本理解模块协同,完成跨模态推理(如根据图像内容生成文本、解读图像中的专业图表、结合图像与文本进行创意生成),解决了传统开源模型多模态融合不流畅、推理精度低的问题。
# 四、表现评估
# 4.1 历史与现状
Step 3刚发布时,凭借“开源+高性能+低成本”的组合优势,迅速占据开源多模态推理模型的头部位置,发布后便获得海内外开发者与媒体的广泛关注,被机器之心等权威媒体评价为“开源VLM新晋之王”,在多个多模态基准测试中超越同期开源模型,甚至可与顶尖闭源模型正面抗衡。截至2026年4月,Step 3仍是开源多模态推理领域的标杆产品,通过持续的迭代优化,进一步提升了跨场景适配能力与推理稳定性,已完成与多家国产芯片厂商的适配,广泛应用于手机Agent、智能座舱、金融、零售等领域,行业认可度持续提升,未出现被同类产品超越或淘汰的迹象。
# 4.2 优势亮点
结合业内公认的基准测试数据与媒体实测结果,Step 3的优势主要集中在多模态推理、硬件适配、推理效率三大维度,具体表现如下:
1. 多模态推理性能领先:在MMMU、MathVision、SimpleVQA等多模态基准测试中,Step 3取得了开源模型的SOTA(state-of-the-art,当前最优)成绩,视觉理解精度高,可准确识别图像中的物体、场景、细节,甚至能解读专业技术图表与网络热梗截图;同时具备强大的多模态信息整合能力,可根据多张图像(如歌词截图)生成连贯的文本内容,完成复杂的跨模态推理任务(如根据主机照片推测贴纸数量)。
2. 硬件适配性强且推理成本低:在国产芯片上的推理效率最高可达DeepSeek-R1的300%,在NVIDIA Hopper架构芯片上的吞吐量较DeepSeek-R1提升超70%,且无需牺牲激活参数量与注意力容量;其推理成本仅为当前业界领先开源模型的三分之一,大幅降低了企业与开发者的部署成本,同时已完成华为昇腾、沐曦、天数智芯等多家国产芯片的适配,兼容性极强。
3. 交互体验流畅且场景适配广:实测中,Step 3响应流畅,支持实时视觉对话与打断功能,可无缝切换对话场景(如从介绍桌游切换到分析镜头中的猫咪);同时适配C端与B端场景,既能满足普通用户的日常视觉咨询、创意生成需求,也能为企业提供智能座舱、内容创作、客户服务等定制化解决方案,覆盖手机、汽车、IoT设备等多个终端。
# 4.3 缺点与不足
尽管Step 3表现出色,但仍存在一些客观短板,主要集中在数学推理、复杂场景精度与开源生态三个方面:
1. 数学推理能力薄弱:与同类开源模型类似,Step 3在复杂数学推理任务中表现不佳,尤其在高难度竞赛级数学题上,不仅准确率低,还容易出现“答案正确但解题过程混乱”的情况,存在公式使用错误、逻辑断层等问题,这也是当前多数大模型的共性短板。
2. 复杂视觉场景推理存在偏差:在处理极其复杂或有歧义的视觉问题时,Step 3的回答偶有偏差,例如面对遮挡严重、光线不足的图像,可能出现物体识别错误或细节遗漏;在解读专业度极高的技术图表时,虽能基本理解核心内容,但偶尔会出现细节解读偏差。
3. 开源生态尚不完善:相较于Llama等成熟开源模型,Step 3的开源时间较短,开源社区的二创资源、插件生态不够丰富,第三方开发者提供的适配工具与应用案例较少,对于技术能力较弱的开发者而言,自主部署与二次开发的门槛仍相对较高。
# 五、重大事件
1. 2025年7月25日Step 3正式发布:阶跃星辰在上海召开发布会,同步宣布成立“模芯生态创新联盟”,联合华为昇腾、沐曦等近10家芯片厂商,打通芯片、模型、平台全链路技术,发布会引发行业广泛关注,Step 3成为WAIC 2025期间的热门话题之一。
2. 2025年7月31日Step 3全球开源:如期面向全球企业和开发者开源,开源地址为GitHub,发布当天相关代码仓库获得大量star,吸引海内外开发者关注,成为同期开源模型中关注度最高的产品之一,推动开源多模态推理技术的普及。
3. 2025年下半年与上海国投达成深度战略合作:阶跃星辰与上海国有资本投资有限公司达成合作,上海国投将参与阶跃星辰最新一轮融资,双方围绕资本链接、生态建设、应用赋能等方面展开协同,为Step 3的技术迭代与场景拓展提供资金与资源支持。
4. 2026年初完成主流国产芯片全面适配:Step 3陆续完成华为昇腾、沐曦、天数智芯、燧原科技等国产芯片的全面适配,成为适配国产芯片最完善的开源多模态模型之一,推动大模型与国产芯片的协同发展。
社区真实评价
登录后才能发表评价,与极客们一起交流哦~