Name: Step 3
Rating: 9999 (1 reviews)
Author: StepFun

Question 1

Step 3是什么？

Accepted Answer

一、简介与定位

中国的阶跃星辰于2025年7月25日发布了一款主打开源、多模态推理的旗舰级基础大模型Step 3，核心定位是兼顾智能性能与部署成本，面向全球企业和开发者提供高适配性的多模态AI解决方案。

Step 3的名称中，“Step”寓意阶跃星辰的技术迭代步伐，数字“3”代表其作为家族第三代基座模型的身份，彰显技术上的进阶与突破；核心功能涵盖文本与视觉多模态理解、复杂推理、跨场景适配等，可完成图像识别、多模态信息整合、创意生成等任务。官方使用门槛友好，个人用户可在阶跃AI官网（stepfun.com）和阶跃AI App免费体验基础功能，API暂未明确公开免费额度，企业用户需通过商务合作获取授权；同期发布的“兄弟模型”包括Step 3o Vision（多模理解生成一体化模型）和Step-Audio 2（第二代端到端语音大模型）。

截至2026年4月，Step 3仍是阶跃星辰的最新主力基座模型，未被淘汰且持续迭代优化，其最突出的核心特点是“多开好省”，即多模态、开源、性能优异、效率高且成本低，是当前开源多模态推理领域的标杆产品之一。

二、发展历程

2.1 研发背景

Step 3发布前，行业内主流大模型呈现“闭源高端化、开源同质化”的格局：闭源领域有OpenAI o3、Gemini 2.5 Pro、Claude Opus 4等顶尖产品，性能强劲但使用成本高昂、无法自主部署；开源领域则以DeepSeek-R1、Llama系列等为主，虽可免费使用，但多存在多模态能力薄弱、推理效率低、适配国产芯片效果差等痛点。彼时大模型行业已从“训练竞赛”进入“推理应用”时代，推理成本居高不下、特定场景适配难、多模态能力调用不全成为阻碍技术落地的“三座大山”，Step 3正是在这样的行业局势下诞生，旨在打造“智能、成本、效率、通用性”兼顾的实用型推理模型。

2.2 关键节点

阶跃星辰在推出Step 1、Step 2两代基座模型并完成技术积累后，于2024年底启动Step 3的研发立项，核心聚焦多模态融合与推理效率优化两大方向；2025年上半年，模型进入内部测试阶段，重点测试视觉理解、跨硬件适配及推理成本控制能力，期间完成多轮迭代调整；2025年7月25日，在上海召开“Step 3大模型发布会暨生态联盟成立大会”，正式向公众发布Step 3；2025年7月31日，Step 3如期面向全球企业和开发者开源，同时完成与华为昇腾等国产芯片的初步适配；2025年下半年至2026年，阶跃星辰持续推进模型优化，拓展行业应用场景，完善“模芯生态创新联盟”布局。

2.3 家族构成

Step 3所属的阶跃星辰Step系列大模型，采用“1+N”矩阵布局，“1”为核心基座模型，“N”为多领域衍生模型，各模型定位清晰、互补性强：

Step 1：阶跃星辰早期推出的基础大模型，以文本理解与生成为核心，定位为入门级基座模型，主要用于验证底层技术架构，为后续迭代奠定基础，目前已逐步退出主力序列。

Step 2：第二代基座模型，在Step 1的基础上提升了文本推理能力，优化了部署效率，但未实现多模态融合，定位为过渡性基座模型，主要服务于纯文本场景的企业用户，当前仍可使用但不再重点迭代。

Step 3：第三代旗舰级基座模型，也是目前家族的核心产品，首个全尺寸、原生多模态推理模型，兼顾性能与成本，开源且适配多硬件平台，是面向推理时代的主力模型。

Step 3o Vision：Step 3的多模态衍生模型，专注于视觉理解与生成一体化，可完成图像编辑、场景识别、视觉内容创作等任务，与Step 3协同覆盖视觉相关应用场景。

Step-Audio 2：第二代端到端语音大模型，负责语音识别、语音生成、实时语音交互等任务，与Step 3、Step 3o Vision形成多模态协同，完善全场景交互能力。

三、核心技术剖析

3.1 固有技术

Step 3继承了阶跃星辰上一代模型的核心底层技术，同时借鉴了行业成熟架构的优势：底层采用MoE（混合专家模型）架构，这一架构并非Step 3首创，但Step 3对其进行了优化适配，延续了MoE架构“参数量大但计算高效”的特点，通过激活部分专家模块，在保证模型性能的同时降低计算成本；对齐手段上，延续了常规的监督微调（SFT）与人类反馈强化学习（RLHF）结合的方式，确保模型输出符合人类认知与使用需求，避免出现偏离常识的回复；同时继承了上一代模型的中文语义理解优化技术，适配中文场景的表达习惯，减少语义偏差。

3.2 创新技术

Step 3的核心创新集中在架构优化、硬件适配与多模态融合三大方向，均围绕“降本增效、提升实用价值”展开，具体解读如下：

1. 原创MFA架构：即Multi-matrix Factorization Attention（多矩阵分解注意力）架构，是Step 3最核心的技术创新。与传统注意力机制相比，MFA架构通过增加注意力头的数量和维度、采用激进的低秩分解策略以及单键值（QK）头设计，在最大限度节省计算资源的同时，尽可能接近理论性能上限；更关键的是，该架构专门针对国产芯片进行了优化，适配国产芯片在制程和HBM（高带宽显存）上的限制，解决了主流架构在国产芯片上算力与显存带宽不足的痛点。

2. 模型-系统协同设计：Step 3在研发初期就兼顾模型性能与硬件适配，实现了“模型架构与硬件特性”的深度协同。不同于传统模型“先研发、后适配”的模式，Step 3的架构设计充分考虑了不同硬件平台的特性，尤其是国产芯片的计算特点，其计算密度（128倍于KV访存量）完美匹配国产芯片，使得模型在国产芯片上的推理效率大幅提升，同时也能适配NVIDIA等国际芯片，实现多硬件兼容。

3. 原生多模态融合技术：Step 3并非“文本模型+视觉模型”的简单拼接，而是原生支持文本与视觉多模态输入输出，通过统一的底层架构实现多模态信息的深度整合。其视觉理解模块可精准识别图像中的细节信息（如物体品种、数量、场景），并与文本理解模块协同，完成跨模态推理（如根据图像内容生成文本、解读图像中的专业图表、结合图像与文本进行创意生成），解决了传统开源模型多模态融合不流畅、推理精度低的问题。

四、表现评估

4.1 历史与现状

Step 3刚发布时，凭借“开源+高性能+低成本”的组合优势，迅速占据开源多模态推理模型的头部位置，发布后便获得海内外开发者与媒体的广泛关注，被机器之心等权威媒体评价为“开源VLM新晋之王”，在多个多模态基准测试中超越同期开源模型，甚至可与顶尖闭源模型正面抗衡。截至2026年4月，Step 3仍是开源多模态推理领域的标杆产品，通过持续的迭代优化，进一步提升了跨场景适配能力与推理稳定性，已完成与多家国产芯片厂商的适配，广泛应用于手机Agent、智能座舱、金融、零售等领域，行业认可度持续提升，未出现被同类产品超越或淘汰的迹象。

4.2 优势亮点

结合业内公认的基准测试数据与媒体实测结果，Step 3的优势主要集中在多模态推理、硬件适配、推理效率三大维度，具体表现如下：

1. 多模态推理性能领先：在MMMU、MathVision、SimpleVQA等多模态基准测试中，Step 3取得了开源模型的SOTA（state-of-the-art，当前最优）成绩，视觉理解精度高，可准确识别图像中的物体、场景、细节，甚至能解读专业技术图表与网络热梗截图；同时具备强大的多模态信息整合能力，可根据多张图像（如歌词截图）生成连贯的文本内容，完成复杂的跨模态推理任务（如根据主机照片推测贴纸数量）。

2. 硬件适配性强且推理成本低：在国产芯片上的推理效率最高可达DeepSeek-R1的300%，在NVIDIA Hopper架构芯片上的吞吐量较DeepSeek-R1提升超70%，且无需牺牲激活参数量与注意力容量；其推理成本仅为当前业界领先开源模型的三分之一，大幅降低了企业与开发者的部署成本，同时已完成华为昇腾、沐曦、天数智芯等多家国产芯片的适配，兼容性极强。

3. 交互体验流畅且场景适配广：实测中，Step 3响应流畅，支持实时视觉对话与打断功能，可无缝切换对话场景（如从介绍桌游切换到分析镜头中的猫咪）；同时适配C端与B端场景，既能满足普通用户的日常视觉咨询、创意生成需求，也能为企业提供智能座舱、内容创作、客户服务等定制化解决方案，覆盖手机、汽车、IoT设备等多个终端。

4.3 缺点与不足

尽管Step 3表现出色，但仍存在一些客观短板，主要集中在数学推理、复杂场景精度与开源生态三个方面：

1. 数学推理能力薄弱：与同类开源模型类似，Step 3在复杂数学推理任务中表现不佳，尤其在高难度竞赛级数学题上，不仅准确率低，还容易出现“答案正确但解题过程混乱”的情况，存在公式使用错误、逻辑断层等问题，这也是当前多数大模型的共性短板。

2. 复杂视觉场景推理存在偏差：在处理极其复杂或有歧义的视觉问题时，Step 3的回答偶有偏差，例如面对遮挡严重、光线不足的图像，可能出现物体识别错误或细节遗漏；在解读专业度极高的技术图表时，虽能基本理解核心内容，但偶尔会出现细节解读偏差。

3. 开源生态尚不完善：相较于Llama等成熟开源模型，Step 3的开源时间较短，开源社区的二创资源、插件生态不够丰富，第三方开发者提供的适配工具与应用案例较少，对于技术能力较弱的开发者而言，自主部署与二次开发的门槛仍相对较高。

五、重大事件

1. 2025年7月25日Step 3正式发布：阶跃星辰在上海召开发布会，同步宣布成立“模芯生态创新联盟”，联合华为昇腾、沐曦等近10家芯片厂商，打通芯片、模型、平台全链路技术，发布会引发行业广泛关注，Step 3成为WAIC 2025期间的热门话题之一。

2. 2025年7月31日Step 3全球开源：如期面向全球企业和开发者开源，开源地址为GitHub，发布当天相关代码仓库获得大量star，吸引海内外开发者关注，成为同期开源模型中关注度最高的产品之一，推动开源多模态推理技术的普及。

3. 2025年下半年与上海国投达成深度战略合作：阶跃星辰与上海国有资本投资有限公司达成合作，上海国投将参与阶跃星辰最新一轮融资，双方围绕资本链接、生态建设、应用赋能等方面展开协同，为Step 3的技术迭代与场景拓展提供资金与资源支持。

4. 2026年初完成主流国产芯片全面适配：Step 3陆续完成华为昇腾、沐曦、天数智芯、燧原科技等国产芯片的全面适配，成为适配国产芯片最完善的开源多模态模型之一，推动大模型与国产芯片的协同发展。

Question 2

Step 3的API价格是多少？

Accepted Answer

Step 3的API输入价格为4.0000元/百万Token，输出价格为10.0000元/百万Token。

Question 3

Step 3支持哪些功能？

Accepted Answer

Step 3的功能特性信息暂未收录。

Question 4

Step 3是国产模型吗？

Accepted Answer

是的，Step 3是由StepFun开发的国产AI大模型，可直接访问使用。

Step 3

📖
词条百科 Wiki

📑 章节目录

# 一、简介与定位

# 二、发展历程

# 2.1 研发背景

# 2.2 关键节点

# 2.3 家族构成

# 三、核心技术剖析

# 3.1 固有技术

# 3.2 创新技术

# 四、表现评估

# 4.1 历史与现状

# 4.2 优势亮点

# 4.3 缺点与不足

# 五、重大事件

📊
能力雷达星图

数据采集中

⏳模型家族构成

🔗 相关链接

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API

平台：Siliconflow 模型：[已下架] step3

⚡ 体验反馈与渠道测速

🤝 第三方测速反馈

⚔️
性能对标产品

Doubao-Seed-2.0-lite-260428(high)

Qwen3.7-Max(Thinking)

Claude Opus 4.7 (high)

Gemini 3.5 Flash (high)

社区真实评价