Name: GLM 4.7 Flash
Rating: 148 (1 reviews)
Author: Zhipu

Question 1

GLM 4.7 Flash是什么？

Accepted Answer

一、简介与定位

中国智谱AI（Zhipu AI）于2026年1月20日正式发布GLM 4.7 Flash，这是一款定位为轻量化、高性价比的开源混合思考大模型，主打免费商用与轻量化部署场景。

其名称中“4.7”代表隶属于GLM 4系列的迭代版本，延续该系列的核心技术底座；“Flash”意为“极速、轻量化”，直观体现其低资源消耗、高响应速度的特点，核心功能涵盖编码开发、工具调用、长文本处理、创意写作等，主打“小而精、快而强”的实用体验。使用门槛极低，官方提供完全免费的API调用（免费版支持1个并发请求），可通过智谱开放平台、Z.ai在线体验，同时支持本地部署，采用MIT许可证，允许商业应用和二次开发；同期发布的“兄弟模型”为GLM 4.7旗舰版，主打更高性能的编码与复杂推理，定位高于Flash版。

目前GLM 4.7 Flash处于生命周期的活跃阶段，是智谱AI当前轻量化开源模型中的主力产品，尚未被淘汰；其最突出的核心特点是采用混合思考架构，以30B总参数量、3B激活参数量，在保证性能的同时大幅降低部署成本，实现了轻量化与实用性的平衡。

二、发展历程

2.1 研发背景

GLM 4.7 Flash发布前，行业内主流大模型呈现“两极分化”态势：一方面，GPT-5系列、Claude 4.5 Sonnet等旗舰模型性能强劲，但存在使用成本高昂、部署门槛高的问题，普通开发者难以负担；另一方面，现有轻量化模型（如GLM 4.5 Flash、Qwen3-30B系列）虽部署便捷，但在编码、工具调用等核心场景的性能表现不足，难以满足生产级需求。同时，2025年以来，大模型开源生态成为行业竞争焦点，智谱AI提出“开源年”战略，旨在推动AI普惠，降低开发者使用门槛，GLM 4.7 Flash正是在这一“轻量化、开源化、普惠化”的行业趋势下诞生，填补了“高性能+低门槛”轻量化模型的市场空白。

2.2 关键节点

2025年底，智谱AI完成GLM 4.7 Flash的早期立项，核心目标是研发一款“兼顾性能与效率”的轻量化模型，重点解决上一代GLM 4.5 Flash性能不足、部署成本偏高的问题；2026年1月初，模型进入内部测试阶段，重点测试编码、工具调用、本地部署的稳定性，收集开发者反馈并优化推理速度与并发能力；2026年1月20日，智谱AI正式对外发布GLM 4.7 Flash，同步开放API调用、在线体验与开源权重，宣布其替代GLM 4.5 Flash成为新的免费开源主力模型；2026年1月30日，上一代模型GLM 4.5 Flash正式下线，所有相关请求自动路由至GLM 4.7 Flash，完成迭代交接。

2.3 家族构成

GLM 4.7 Flash隶属于智谱GLM 4系列大模型家族，该家族涵盖多个定位不同的模型，适配各类使用场景，核心成员包括：

GLM 4.7 旗舰版：2025年12月23日发布，定位为高端旗舰模型，主打编码、复杂推理与工具调用的极致性能，在多项国际基准测试中斩获开源模型领先成绩，是GLM Coding Plan的默认模型，需订阅使用（起价每月3美元），适配专业开发者的高阶需求。

GLM 4.7 Flash：2026年1月20日发布，定位为轻量化开源模型，核心优势是低资源消耗、免费商用，适配普通开发者、中小企业的轻量化部署与日常使用场景，兼顾编码、创意写作等多场景需求。

GLM-4-32B-0414：2025年4月发布，定位为中量级基座模型，参数量32B，比肩更大参数量主流模型性能，重点优化工具调用、联网搜索与代码生成能力，适合企业级中等算力场景部署。

GLM-Z1系列：包含GLM-Z1-32B-0414、GLM-Z1-9B-0414等型号，定位为推理专项模型，主打高效推理能力，其中GLM-Z1-32B-0414以320亿参数量实现媲美千亿参数模型的推理性能，适合对响应速度要求高的场景。

三、核心技术剖析

3.1 固有技术

GLM 4.7 Flash继承了GLM系列模型的核心底层技术，延续了GLM-4基座的Transformer变体架构，保留了高效的预训练与对齐手段。其底层基于智谱自研的GLM大语言模型架构，沿用了“自回归语言建模”与“指令对齐”技术，确保模型能够精准理解用户指令，生成符合预期的响应；同时继承了上一代模型的多语言处理能力与基础推理框架，在此基础上优化了模型的资源占用率，实现了“轻量化”与“基础能力”的兼顾，无需牺牲核心功能即可降低部署门槛。

3.2 创新技术

GLM 4.7 Flash的核心创新的是“混合思考架构”，结合符号推理与神经网络，同时优化了参数量配置与推理效率，具体创新点如下：

1. 混合专家（MoE）参数量设计：采用“30B总参数量+3B激活参数量”的配置，属于混合专家模型。简单来说，模型总参数量达到30B，保证了充足的知识储备与推理能力，而每次推理仅激活3B参数量，相当于“按需调用算力”，大幅降低了部署时的显存占用与计算资源消耗，让消费级硬件也能流畅运行，实现了“大模型性能、轻量级部署”的平衡。

2. 混合思考机制：融合符号推理与神经网络的优势，打破了传统轻量化模型“重响应、轻逻辑”的短板。在处理编码、复杂任务时，模型会先进行符号推理拆解任务，再通过神经网络生成具体结果，比如编写代码时，会先分析需求、拆解步骤，再生成代码并自我审查纠错，提升了复杂任务的完成质量与稳定性。

3. 高效推理优化：优化了GQA参数、量化与投机采样等技术，大幅提升推理速度，同时支持200K长上下文长度，最大输出128K tokens，有效缓解了轻量化模型长文本处理时的遗忘问题，能够流畅处理长文档、多轮对话等场景，且推理速度接近旗舰模型水平。

四、表现评估

4.1 历史与现状

GLM 4.7 Flash刚发布时，凭借“免费开源+高性能+轻量化”的组合优势，迅速获得开发者关注，发布当日相关话题在HN首页曝光，API调用量快速增长，成为同期轻量化开源模型中的“黑马”，填补了同尺寸模型中“性能与成本平衡”的空白。截至2026年4月，该模型仍处于活跃迭代阶段，是智谱AI轻量化开源模型的主力，广泛应用于个人开发、中小企业AI部署等场景，开源社区已有较多二次开发案例，但随着同类轻量化模型（如MiniCPM-o 4.5）的竞争，其行业关注度有所回落，核心优势仍集中在“免费商用+低门槛部署”。

4.2 优势亮点

结合业内基准测试数据与实际使用反馈，GLM 4.7 Flash的优势主要集中在编码、工具调用与轻量化部署三个维度，具体表现如下：

1. 编码能力突出：在SWE-bench编码基准测试中，得分达到59.2%，远超同尺寸的Qwen3-30B-A3B-Thinking-2507（34%）与GPT-OSS-20B（22%），在前端开发、后端开发等真实场景中，能够快速生成可运行的代码框架，减少开发者调试成本，同时支持HTML、CSS、JS等多种编程语言，适配多技术栈需求。

2. 工具调用能力优异：在τ²-Bench交互式工具调用评测中，表现超越同尺寸模型，能够流畅协同Claude Code、Cursor等10多种编程工具，实现“需求分析-方案拆解-代码生成”的一站式闭环，工具调用成功率与链路可靠性处于同级别开源模型前列。

3. 综合性能均衡：在MMLU知识问答（78.3%）、GSM8K数学推理（85.7%）、多语言理解（82.1%）等基准测试中，均超过行业平均水平（分别为72.1%、79.2%、75.6%），兼顾知识储备、逻辑推理与多语言处理能力，无需针对性优化即可适配多种日常场景。

4. 部署门槛极低：支持通过vLLM、SGLang框架在消费级硬件上本地部署，同时提供免费API调用（无额度限制，仅1个并发限制），无需绑定信用卡，开源权重可在Hugging Face、魔搭社区免费下载，无论是个人开发者还是中小企业，都能零成本快速上手。

4.3 缺点与不足

客观来看，GLM 4.7 Flash受限于轻量化定位，仍存在明显短板，主要集中在以下方面：

1. 复杂推理能力有限：尽管基础推理表现良好，但在超高难度数学推理（如AIME 2025）、复杂学术研究等场景中，表现不如GLM 4.7旗舰版与Claude 4.5 Sonnet，难以处理需要深度拆解的复杂任务，偶尔会出现逻辑断层。

2. 并发能力不足：免费版API仅支持1个并发请求，无法满足高并发场景需求，若需提升并发量，需付费升级至FlashX版本，对有批量处理需求的开发者不够友好。

3. 模型稳定性有待提升：作为发布仅两个多月的新模型，部分场景仍存在优化空间，开源社区反馈显示，在复杂工具调用、长文本连续生成时，偶尔会出现响应卡顿、结果跑偏的情况，兼容性仍需完善。

4. 创新度有限：其核心技术多为“优化升级”，而非突破性创新，混合思考架构与MoE参数量设计，在同期其他轻量化模型中也有类似应用，缺乏独特的技术壁垒。

五、重大事件

1. 2026年1月20日，GLM 4.7 Flash正式发布并开源，同步开放API调用与本地部署渠道，发布当日相关推文在X平台获得195K次浏览、2000个赞，迅速登上HN首页，成为同期开源AI领域的热点事件，标志着智谱AI在轻量化模型领域的进一步布局。

2. 2026年1月30日，上一代模型GLM 4.5 Flash正式下线，所有相关API请求自动路由至GLM 4.7 Flash，完成模型迭代交接，此次迭代未出现大规模服务中断，体现了智谱AI成熟的技术运维能力，也进一步巩固了GLM 4.7 Flash的主力地位。

3. 2026年2月，GLM 4.7 Flash在LMSYS Chatbot Arena开源模型榜单中跻身前列，其编码能力在盲测中获得开发者广泛认可，同时被多家第三方AI工具平台接入，成为轻量化编码场景的首选模型之一，进一步扩大了行业影响力。

4. 2026年3月，智谱AI修复了GLM 4.7 Flash在工具调用、本地部署中的多个漏洞，优化了推理速度与并发处理能力，同时更新了官方技术文档，补充了多场景部署教程，推动开源社区的二次开发，累计有数百名开发者提交了优化建议与应用案例。

Question 2

GLM 4.7 Flash的API价格是多少？

Accepted Answer

GLM 4.7 Flash的API输入价格为0.4350元/百万Token，输出价格为2.9000元/百万Token。

Question 3

GLM 4.7 Flash支持哪些功能？

Accepted Answer

GLM 4.7 Flash的功能特性信息暂未收录。

Question 4

GLM 4.7 Flash是国产模型吗？

Accepted Answer

是的，GLM 4.7 Flash是由Zhipu开发的国产AI大模型，可直接访问使用。

GLM 4.7 Flash

📖
词条百科 Wiki

📑 章节目录

# 一、简介与定位

# 二、发展历程

# 2.1 研发背景

# 2.2 关键节点

# 2.3 家族构成

# 三、核心技术剖析

# 3.1 固有技术

# 3.2 创新技术

# 四、表现评估

# 4.1 历史与现状

# 4.2 优势亮点

# 4.3 缺点与不足

# 五、重大事件

📊
能力雷达星图

⏳模型家族构成

🔗 相关链接

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API

平台：OpenRouter 模型：GLM 4.7 Flash

⚡ 体验反馈与渠道测速

🤝 第三方测速反馈

⚔️
性能对标产品

Hy3 preview(high)

Qwen3.6-27B(Thinking)

MiMo V2.5 Pro Base

MiMo V2.5 Base

社区真实评价