Qwen 3.5 122B A10B

Qwen 3.5 122B A10B

qwen-3-5-122b-a10b

机构/公司
alibaba(国内 🇨🇳)
发布日期
2026-02-24
版本状态
⭐ 当前主力
开源状态
🌍 开源可见
能力模态
💬 大语言模型
上下文长度
1M
参数规模:122B
主要语言:中文
底层架构:MoE
开源协议:Apache 2.0
官方计费模式:参见下方【使用模块】
🧲

🧲 变体专属说明 (Shadow Entry)

指的是 Qwen 3.5 的 35B 参数版本, 每次推理仅激活 10B 参数,降低本地部署门槛, 提高运行速度, 是性能和本地部署的折中版本。

📖
词条百科 Wiki



# 一、简介与定位

中国阿里云通义千问团队于2026年2月正式发布的旗舰级混合专家(MoE)开源大模型,是Qwen3.5系列的顶配主力版本。

模型全称Qwen 3.5 397B-A17B,397B代表模型总参数量3970亿,A17B指代推理时仅激活170亿参数,是该版本核心标识,主打低激活成本、超高性能比。使用门槛方面,模型完整开源,开发者可本地部署;阿里云百炼平台提供在线API调用,设有免费基础额度,同时推出付费Qwen Coding Plan订阅套餐,满足高频开发需求。本次同期发布的兄弟模型包含Qwen3.5-7B、Qwen3.5-14B、Qwen3.5-35B-A3B等轻量化版本,覆盖轻量化部署到中端推理全场景。

目前该模型仍为Qwen3.5系列核心旗舰模型,未被淘汰,后续迭代的Qwen3.6系列为轻量化进阶版本,无法完全替代其顶配综合能力。其最突出的核心特点是以接近4000亿的总参数、仅170亿激活参数的轻量化推理形态,实现了超越万亿参数前代模型的综合性能,大幅拉低旗舰级AI能力的部署门槛

# 二、发展历程

# 2.1 研发背景

在Qwen3.5 397B发布前,行业主流旗舰大模型普遍存在两大痛点:一是稠密架构旗舰模型参数量庞大、推理成本极高,普通开发者和中小企业难以落地使用;二是轻量化开源模型性能上限不足,在复杂推理、专业知识、代码工程场景无法对标闭源旗舰。彼时市场中,海外闭源模型凭借成熟的MoE架构领跑高端场景,而国产开源旗舰大多仍依赖稠密架构,存在性能与成本无法兼顾的行业短板。基于这一行业局势,阿里云千问团队针对性优化MoE架构,主打“高智能密度、低推理成本”,补齐国产开源旗舰在性价比与落地性上的空白,推出Qwen3.5 397B旗舰模型。

# 2.2 关键节点

千问团队在Qwen3系列模型落地迭代的基础上,启动3.5版本的架构升级与专项训练优化工作,核心聚焦MoE激活机制、长文本理解与代码能力优化。2026年除夕,Qwen3.5系列首款旗舰模型Qwen3.5 397B-A17B完成内部测试并官宣开源,率先落地顶配MoE能力;2026年2月中下旬,该模型正式上线阿里云百炼平台,开放API调用服务,同步推出专属Coding订阅计划,面向开发者开放商用能力;2026年4月,迭代版本Qwen3.6-27B发布,在轻量化场景超越397B版本,但397B仍保留高端复杂场景的性能优势,形成高低搭配的产品格局。

# 2.3 家族构成

Qwen3.5-7B/14B:系列入门级稠密模型,主打极致轻量化,适配消费级显卡本地部署、移动端嵌入、日常对话、简单文案生成等轻量场景,优势是部署零门槛、推理速度快,满足普通用户基础使用需求。

Qwen3.5-35B-A3B:系列中端MoE模型,总参数350亿、激活30亿参数,定位均衡性价比版本,兼顾通用对话、轻度代码开发、图文理解,衍生出Flash高速推理版本,主打低成本高频调用,适合中小开发者商用落地。

Qwen3.5 397B-A17B:系列顶配旗舰MoE模型,也就是本文核心评测对象,聚焦复杂逻辑推理、博士级专业知识、复杂代码工程、智能体高阶任务,是3.5系列综合性能天花板,主打高端商用与科研场景。

# 三、核心技术剖析

# 3.1 固有技术

该模型完整继承了Qwen3系列成熟的混合Transformer架构,沿用通用预训练+人类反馈对齐(RLHF)的标准训练流程,保留前代模型优秀的中文语义理解、多轮对话连贯性、基础工具调用能力。同时继承了千问系列的大规模多模态混合Token训练体系,在文本、图像混合理解任务上保留基础优势,对齐效果成熟,无明显对话跑偏、指令理解偏差等基础问题,模型稳定性继承了前代版本的口碑优势。

# 3.2 创新技术

Qwen3.5 397B的核心创新集中在MoE架构优化与推理效率升级,彻底解决了传统超大模型算力浪费、推理缓慢的痛点,核心创新点如下:

(1)高稀疏度MoE动态激活机制:区别于传统稠密模型全员参数参与推理,该模型采用精细化稀疏激活策略,3970亿总参数中仅激活170亿核心参数参与单次推理任务。简单来说,模型会根据用户输入的任务难度,自动调度对应算力模块,简单任务低算力响应,复杂任务调度高端参数,既保留超大模型的知识储备与推理上限,又将常规推理显存占用降低60%,推理吞吐量最高提升19倍,实现“大模型能力、小模型成本”。

(2)智能路由优化算法:针对传统MoE模型路由错乱、任务匹配失误、专家模块闲置的问题,本次升级专属路由算法,精准匹配任务与对应专家模块。在代码、数理逻辑、专业知识、通用对话等不同场景下,可精准激活对应专项训练模块,减少无效参数调用,大幅提升复杂任务的准确率,避免传统MoE模型“大而不精”的问题。

(3)迭代式混合注意力机制:融合稀疏注意力与全量注意力优势,针对长文本场景优化遗忘问题。短文本对话采用轻量化注意力提速,长文档解析、万字代码阅读、长篇文案梳理场景启用全量注意力,有效缓解超长文本上下文信息丢失、首尾逻辑脱节的问题,长文本理解连贯性显著优于前代模型。

(4)专项领域微调配方升级:针对代码开发、博士级专业推理、智能体调用三大核心场景做了增量微调,优化了工具调用链路、数理推理逻辑链、复杂代码纠错能力,让模型在高阶专业场景的适配性远超普通通用大模型。

# 四、表现评估

# 4.1 历史与现状

模型2026年2月发布之初,直接刷新国产开源大模型性能纪录,多项核心评测超越同期主流闭源旗舰模型,成为当时开源领域的性能天花板,彻底打破“超大参数高性能、小参数低成本”的行业固有矛盾。现阶段,随着Qwen3.6系列轻量化模型发布,其在轻量化推理、高频智能体任务上的优势被迭代替代,但在高阶专业推理、复杂工程代码、深度知识问答等硬核场景,依旧保持国产开源第一梯队实力,仍是高端商用与科研场景的首选模型之一。

# 4.2 优势亮点

结合LMSYS、GPQA、SWE-bench、IFBench等业内权威基准评测数据,该模型核心优势维度十分突出:

(1)高阶专业知识推理顶尖:在博士级难题测评GPQA中斩获88.4分,超越同期Claude 4.5等主流闭源模型;在MMLU-Pro专业知识推理评测中得分87.8分,具备极强的跨学科专业知识储备与复杂问题拆解能力,适配科研、学术、专业咨询场景。

(2)指令遵循能力行业标杆:在IFBench指令遵循专项评测中以76.5分刷新同期所有模型纪录,能够精准理解复杂、模糊、多层级的人类指令,严格贴合用户需求输出结果,减少无效内容、答非所问等问题,适配精细化内容创作、定制化开发任务。

(3)代码工程能力旗舰级水准:在SWE-bench Verified代码修复基准中得分76.2分,可完成复杂项目代码编写、漏洞修复、架构搭建,适配中大型软件开发场景,同时支持高频工具调用、智能体自动化开发任务。

(4)智能体任务表现优异:在BFCL-V4通用智能体、Browsecomp搜索智能体评测中,性能全面超越同期主流开源与闭源模型,能够高效完成自主规划、多步骤任务执行、联网检索整合等复杂智能体工作。

# 4.3 缺点与不足

从实测与权威评测数据来看,该模型存在明显短板,并非全场景通吃:

(1)轻量化高频任务性价比偏低:在普通对话、简单文案、基础代码生成等轻量化场景,性能与Qwen3.6-27B等新型轻量化模型差距不大,但部署与推理成本更高,小场景使用性价比不足。

(2)部分细分智能体技能薄弱:在SkillsBench综合技能评测中仅得30.0分,相较于迭代后的轻量化模型,在细分实用技能、轻量化自动化任务上的适配性不足,场景适配精准度有待提升。

(3)极端复杂数理推理存在局限:超高难度奥数、纯理论数理推导场景中,仍存在少量逻辑断层、步骤简化错误的问题,对比顶级闭源旗舰模型,数理严谨性仍有提升空间。

(4)MoE路由偶发偏差:极少数跨界复杂任务(图文结合+数理推理+代码生成混合任务)中,会出现专家模块路由失误,导致输出内容侧重点偏移、局部细节出错。

# 五、重大事件

发布即登顶开源模型性能榜单:2026年2月发布后,Qwen3.5 397B凭借多项超越主流闭源模型的评测成绩,快速登顶各大开源大模型排行榜,打破国产开源模型性能上限,引发国内外AI社区广泛讨论。

获马斯克公开认可出圈:模型发布后,马斯克在社交平台公开评价Qwen3.5系列模型“智能密度令人印象深刻”,认可其低激活参数、高性能的技术优势,让该模型突破国内AI圈层,获得全球行业关注度。

推出开发者专属订阅生态:2026年2月阿里云基于该模型推出Qwen Coding Plan付费订阅服务,低价提供高频调用额度,降低开发者商用门槛,完善了千问系列的商业化落地生态,推动国产开源大模型商用普及。

被迭代模型实现参数反超:2026年4月Qwen3.6-27B发布,该轻量化模型以1/15的参数量,在智能体编程、细分技能等多项基准中全面超越Qwen3.5 397B,成为行业“小模型吊打大模型”的经典案例,引发行业对大模型参数效率的深度讨论。


由本站联合社区极客共同编撰,最后更新:2026-05-19 01:03:44
开放 Wiki 模式开启中

📊
能力雷达星图

权威基准

模型家族构成

🔗 相关链接

词条待补全

没有找到体验地址?去反馈!

💻
使用与反馈

💰 计费模式与方案

体验反馈与渠道测速

⚔️
性能对标产品

AI

Hy3 preview(high)

Unknown
Qwen3.6-27B(Thinking)

Qwen3.6-27B(Thinking)

Qwen
MiMo V2.5 Pro Base

MiMo V2.5 Pro Base

Xiaomi
MiMo V2.5 Base

MiMo V2.5 Base

Xiaomi
💬

社区真实评价

🤐

登录后才能发表评价,与极客们一起交流哦~

正在拉取评论数据...