Step 3.5 Flash

Step 3.5 Flash

step-3-5-flash

机构/公司
StepFun(国内 🇨🇳)
发布日期
2026-02-05
版本状态
⭐ 当前主力
开源状态
🌍 开源可见
能力模态
💬 大语言模型
上下文长度
未知
参数规模:暂未收录
主要语言:暂未收录
底层架构:暂未收录
开源协议:暂未收录
官方计费模式:参见下方【使用模块】

📖
词条百科 Wiki

# 一、简介与定位

中国的阶跃星辰于2026年2月2日,发布了一款定位为开源智能体(Agent)基座的旗舰级大模型Step 3.5 Flash,主打高效推理与低成本部署,聚焦智能体场景的核心需求。

其名称中“Step”是阶跃星辰大模型家族的统一前缀,代表“阶跃式迭代”的研发理念;“3.5”是家族迭代版本号,介于Step 3与Step 4之间,属于中期升级款;“Flash”意为“闪电”,直观体现其极速推理的核心优势。该模型核心功能是为智能体场景提供锐利推理与可靠执行能力,可高效处理长上下文任务、完成代码编写与复杂逻辑分析,同时支持端云协同部署。官方使用门槛极低,完全开源,模型预训练权重、中训练权重及配套Steptron训练框架均免费开放,无订阅要求、无API调用额度限制,普通开发者可直接在Hugging Face下载使用;同期未发布同系列兄弟模型,但后续开源了其全套训练体系,与阶跃星辰此前发布的Step系列多模态模型形成能力互补。

目前该模型处于生命周期的活跃期,是阶跃星辰当前的主力开源模型,未被淘汰且持续受到开源社区关注;其最突出的核心特点是采用稀疏混合专家架构,以110亿激活参数实现媲美顶级闭源模型的推理能力,同时兼顾350TPS的超高推理速度与低成本部署优势。

# 二、发展历程

# 2.1 研发背景

Step 3.5 Flash发布前,行业内主流大模型呈现“闭源领跑、开源追赶”的格局:闭源领域,GPT-5.2 xHigh、Claude Opus 4.5、Gemini 3.0 Pro等模型占据顶级推理能力赛道,但存在部署成本高、无法本地使用的痛点;开源领域,Qwen3.5-Flash、Llama 3等模型虽降低了部署门槛,但在智能体所需的长链推理、高效执行能力上仍有差距。彼时,2026年被普遍视为AI Agent规模化落地的关键节点,行业痛点集中在“高性能与低成本不可兼得”“智能体部署门槛高”,阶跃星辰正是在这样的“时代局势”下,推出了兼顾推理速度、智能水平与使用成本的Step 3.5 Flash,打破“参数决定性能”的固有认知,推动开源模型向“智能密度”竞争转型。

# 2.2 关键节点

阶跃星辰于2023年4月成立后,便启动了Step系列大模型的研发,聚焦通用人工智能与AI+终端战略;2025年底,随着AI Agent热潮兴起,团队启动Step 3.5 Flash的专项研发,重点攻克长上下文处理与推理速度优化难题;2026年1月26日,阶跃星辰完成超50亿元B+轮融资,同时宣布印奇出任董事长,为该模型的研发落地提供了资金与战略支持;2026年2月初,模型完成内部内测,通过多轮基准测试验证了推理速度与智能体能力,随后于2月2日正式对外发布;2026年3月4日,阶跃星辰进一步开源该模型的全套训练体系,包括预训练权重、中训练权重及Steptron训练框架;截至2026年3月中旬,模型在Hugging Face积累超300k下载量,成为开源社区热门模型。

# 2.3 家族构成

Step 3.5 Flash隶属于阶跃星辰Step系列大模型矩阵,该家族覆盖语言、多模态、推理等全场景能力,目前已公开的核心模型包括:

Step 3:作为Step 3.5 Flash的上一代基座模型,定位为通用语言大模型,采用稠密架构,侧重基础语言理解与生成能力,为后续迭代奠定了底层技术基础,目前已逐步被Step 3.5 Flash替代,但仍用于部分轻量场景部署。

Step 3.5 Flash:家族当前主力开源模型,定位为Agent基座模型,主打稀疏架构、极速推理与低成本部署,核心服务于智能体场景,是家族中推理效率与综合能力平衡最佳的模型。

Step系列多模态模型:与Step 3.5 Flash同期迭代,定位为多模态智能体基座,支持文本、图像、语音等多模态输入输出,可与Step 3.5 Flash协同使用,提升智能体的多维度交互能力。

Step 4(研发中):阶跃星辰下一代旗舰模型,目前处于训练阶段,将在Step 3.5 Flash的基础上,进一步优化推理深度与多场景适配能力,预计将延续开源路线。

# 三、核心技术剖析

# 3.1 固有技术

Step 3.5 Flash继承了阶跃星辰上一代模型的核心底层技术,基础架构上延续了Transformer相关的注意力机制框架,保留了监督微调(SFT)与强化学习(RL)相结合的对齐手段,确保模型输出的准确性与实用性;同时继承了家族一贯的分布式训练基建理念,依托大规模计算集群保障训练稳定性,延续了“基础预训练+领域微调”的训练思路,先通过开放领域数据建立基础认知,再针对性优化代码、逻辑推理等核心领域能力。

# 3.2 创新技术

该模型的核心创新集中在架构优化、推理效率提升与强化学习策略三个方面,均围绕智能体场景的核心需求设计,通俗易懂解读如下:

1.  稀疏MoE(混合专家)架构:这是模型最核心的创新,总参数达1960亿,但推理时仅激活约110亿参数。简单来说,就像一个“专业团队”,模型包含多个“专家模块”,每个模块擅长不同的任务(如推理、代码、长文本处理),推理时仅调用与当前任务相关的“专家”,无需启动全部参数,既保证了推理能力,又大幅降低了算力消耗与部署成本,解决了“高性能与低成本不可兼得”的行业痛点。

2.  混合注意力机制优化:采用滑动窗口注意力(SWA)与全注意力3:1交错排列的方式,同时将SWA层的查询头数量从64个增加到96个,并加入逐头门控注意力机制。通俗来讲,处理长文本时,模型无需从头到尾通读全部内容,只需重点关注当前段落附近的信息,同时自动过滤无用信息,既解决了传统长文本模型“遗忘前文”的问题,又提升了信息处理的精准度,支持最高256K的超长上下文窗口。

3.  多Token预测(MTP-3)技术:模型在输出当前Token(词元)时,会同步预测后续3个Token,就像熟练的演讲者说出当前句子时,提前构思好下一句话,大幅提升了推理速度,使单请求代码类任务的推理峰值达到350TPS,远超主流开源模型的平均水平,解决了终端侧“打字机效应”的痛点。

4.  优化的强化学习框架(MIS-PO):针对传统强化学习在长链推理中易震荡、偏差放大的问题,采用“二元过滤”策略,直接丢弃偏离基准过远的劣质样本,重点优化高质量样本,就像老师批改作业时,不纠结离谱的解题思路,只强化方向正确的答卷,让模型在长序列任务上的优化更稳定、更高效。同时拆分奖励机制,用RLVR处理有明确对错的任务(如数学、代码),用RLHF评估文本表达质量,进一步提升输出可靠性。

5.  专家并行负载均衡策略:针对分布式部署中“部分显卡负载过高、部分闲置”的问题,通过技术手段强制让各显卡组工作量均匀,避免单台设备过载或闲置,提升了模型部署的稳定性与效率,同时适配华为昇腾、阿里平头哥等多款国产芯片,扩大了部署场景。

# 四、表现评估

# 4.1 历史与现状

刚发布时,Step 3.5 Flash凭借“稀疏架构+极速推理”的差异化优势,迅速在开源社区脱颖而出,打破了闭源模型在智能体场景的垄断,上线初期便登上OpenRouter Trending第一名,被视为国产开源模型向“智能密度”转型的标杆;截至2026年4月,该模型在Hugging Face下载量超300k,稳居OpenClaw榜单Top2,成为开发者搭建智能体的首选开源模型之一,同时获得多家芯片厂商适配,生态影响力持续扩大,仍保持活跃的更新与优化节奏,未出现被淘汰的迹象。

# 4.2 优势亮点

结合OpenRouter、AIME 2025、SWE-bench Verified等业内公认的榜单与测试数据,Step 3.5 Flash的优势主要集中在三个核心维度,表现突出:

1.  推理速度与效率:单请求代码类任务推理峰值达350TPS,远超主流开源模型(轻量级模型平均80-150TPS),首字延迟低,可实现瞬时响应,适合语音交互、实时翻译等对速度要求高的场景,同时稀疏架构大幅降低了部署算力需求,128GB RAM的设备(如高端手机、Mac Studio)即可流畅运行。

2.  数学与逻辑推理:在AIME 2025数学竞赛基准测试中得分97.3,在IMO-AnswerBench等顶级逻辑挑战中表现优异,能够快速准确解决复杂等差数列、平方和、阶乘求和等数学问题,推理深度可媲美Claude Opus 4.5、GPT-5.2 xHigh等顶级闭源模型。

3.  智能体与代码能力:在τ²-Bench智能体基准测试中取得88.2的高分,可高效拆解复杂长链任务(如电商比价),自动规划任务流程、调用工具完成执行;在SWE-bench Verified代码测试中达到74.4%的正确率,能快速开发医疗资源监控、气象仪表盘等复杂Web应用,生成代码的完整性与可执行性较强。

# 4.3 缺点与不足

客观来看,Step 3.5 Flash仍存在明显短板,未达到“全能型”模型水平,主要不足包括:

1.  代码能力仍有差距:虽然代码生成表现优秀,但与顶级闭源模型相比仍有小幅差距,生成复杂项目时偶尔出现逻辑漏洞,且无法直接预览代码效果,需手动粘贴保存后才能验证,增加了开发者的操作成本。

2.  细节处理不够精细:在数学计算、文本生成等场景中,偶尔出现“结果正确但格式不规范”的问题,例如数学计算未合并同类项,文本生成时存在少量冗余表述,对细节要求高的场景需手动优化。

3.  多模态能力缺失:作为单一语言模型,不支持图像、语音等多模态输入输出,无法处理多模态相关的智能体任务,需与阶跃星辰的多模态模型协同使用,增加了部署复杂度。

4.  长文本深度不足:虽然支持256K超长上下文,但在处理极端长度的文档(如10万Token以上)时,仍会出现少量信息遗漏或逻辑断层,对超长篇幅的文本理解能力有待提升。

# 五、重大事件

1.  2026年1月26日:阶跃星辰完成超50亿元B+轮融资,创下过去一年内中国大模型赛道单笔最高融资纪录,同时印奇出任董事长,为Step 3.5 Flash的研发落地提供了资金与战略支持,也提升了模型的行业关注度。

2.  2026年2月2日:Step 3.5 Flash正式发布,凭借350TPS的推理速度与稀疏MoE架构,当天便引发开源社区热议,成为国内面向Agent场景的重磅开源模型,多家芯片厂商宣布将适配该模型。

3.  2026年3月4日:阶跃星辰全面开源Step 3.5 Flash的预训练权重、中训练权重及Steptron训练框架,实现从模型到训练流程的系统性开源,进一步降低开发者使用门槛,推动模型在开源社区的普及。

2026年3月中旬:Step 3.5 Flash在Hugging Face下载量突破300k,同时稳居OpenRouter OpenClaw榜单Top2,日均排名持续跃升,成为开发者搭建智能体的首选开源模型之一,验证了其技术实力。

2026年3月12日:阶跃星辰上线“阶跃龙虾”(StepClaw)云端服务,以Step 3.5 Flash为底层模型,实现OpenClaw框架的3分钟一键部署,5万个免费体验名额迅速被抢光,让普通用户也能零成本体验AI Agent服务,进一步扩大了模型的应用场景与影响力。

由本站联合社区极客共同编撰,最后更新:2026-05-02 16:01:23
开放 Wiki 模式开启中

📊
能力雷达星图

权威基准

模型家族构成

🔗 相关链接

词条待补全

没有找到体验地址?去反馈!

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API
API价格
实时更新
平台:OpenRouter 模型:Step 3.5 Flash
输入(/1M)0.72
输出(/1M)2.17
价格由固定汇率换算而来,可能存在细微差距。

体验反馈与渠道测速

🤝 第三方测速反馈
🔌
平台:OpenRouter
模型:Step 3.5 Flash
状态:暂无反馈0 票
前往直达

⚔️
性能对标产品

AI

Hy3 preview(high)

Unknown
Qwen3.6-27B(Thinking)

Qwen3.6-27B(Thinking)

Qwen
MiMo V2.5 Pro Base

MiMo V2.5 Pro Base

Xiaomi
MiMo V2.5 Base

MiMo V2.5 Base

Xiaomi
💬

社区真实评价

🤐

登录后才能发表评价,与极客们一起交流哦~

正在拉取评论数据...