Name: GLM 4.5V
Rating: 9999 (1 reviews)
Author: Zhipu

Question 1

GLM 4.5V是什么？

Accepted Answer

一、简介与定位

中国北京智谱华章科技股份有限公司（简称“智谱AI”）于2025年8月11日，正式发布了一款开源旗舰级多模态视觉推理大模型——GLM 4.5V。

GLM 4.5V的名称中，“GLM”是“General Language Model”（通用语言模型）的缩写，延续智谱GLM系列的命名传统；“4.5”代表其处于GLM 4系列的中期迭代版本，相较于4.0系列有显著升级；“V”是“Vision”（视觉）的缩写，明确其多模态核心属性，主打视觉推理与多形态输入处理。核心功能涵盖图像推理、视频理解、GUI任务处理、复杂图表与长文档解析、视觉定位等全场景视觉推理能力，同时支持网页录屏/截图复现代码、图标识别等生产力功能。官方使用门槛友好，模型已在魔搭社区与HuggingFace开源，用户可免费获取并部署；API调用需在智谱开放平台获取密钥，无明确免费额度，收费标准为输入2元/Mtokens、输出6元/Mtokens，无明显使用权限限制；同期发布的“兄弟模型”为GLM 4.5，一款侧重代码与推理的文本大模型，两者协同支撑智谱AI的智能体生态。

当前GLM 4.5V处于生命周期的稳定迭代阶段，尚未被淘汰，仍是智谱AI开源多模态领域的主力模型之一；其最突出的核心特点是，以1060亿总参数、120亿激活参数的规模，实现同级别开源模型中的SOTA性能，兼顾视觉推理精度与部署性价比，可灵活适配个人开发者与企业级场景。

二、发展历程

2.1 研发背景

GLM 4.5V发布前，多模态领域已形成激烈竞争格局，主流模型分为两大阵营：一是开源阵营，如Qwen2.5-VL、Step-3等，虽具备基础视觉处理能力，但在复杂场景推理、长上下文多模态交互上存在短板；二是闭源阵营，如GPT-4V、Claude 3 Opus，虽性能强劲，但存在使用成本高、无法本地部署、数据隐私难以保障等问题。同时，行业内对多模态模型的核心需求已从“能识别”转向“能推理、能执行”，尤其是GUI智能体、复杂文档解析等实用场景的需求激增，而当时开源模型普遍存在视觉定位精度不足、视频处理效率低、推理逻辑不连贯等痛点。在此背景下，智谱AI基于自身GLM系列的技术积累，延续GLM-4.1V-Thinking的视觉推理路线，推出GLM 4.5V，旨在填补开源高参数多模态模型的性能空白，提供高性价比、可落地的多模态解决方案。

2.2 关键节点

智谱AI在2025年初启动GLM 4.5V的研发立项，核心目标是突破上一代GLM-4.1V-Thinking（9B参数）的性能瓶颈，打造百亿级参数的开源视觉推理标杆。立项后，团队重点推进视觉编码器与语言解码器的融合优化，结合大规模图文交错语料进行预训练，并于2025年7月完成内部内测，期间重点测试了视觉定位、网页代码复现、长文档解析等核心功能，优化了模型的推理速度与幻觉问题。2025年8月11日晚间，智谱AI正式对外发布GLM 4.5V，同步开放模型开源下载与API调用服务；发布次日，模型相关实测内容曝光，其看图猜地点、网页代码复现等功能引发行业关注，迅速登上HuggingFace Trending榜单。后续至2026年3月，智谱AI围绕GLM 4.5V进行小幅迭代，优化了高分辨率图像处理与视频分镜分析能力，适配AutoGLM 2.0智能体的落地需求。

2.3 家族构成

GLM 4.5V隶属于智谱AI的GLM系列大模型家族，该家族涵盖语言、视觉、代码、智能体等多个细分方向，核心成员及定位如下：

GLM-130B：2022年8月发布的百亿级双语稠密基座模型，是GLM系列的奠基之作，具备与GPT-3相当的性能，支持INT4量化部署，为后续系列模型提供了核心架构基础。

ChatGLM-6B：2023年3月发布的轻量级开源模型，仅62亿参数，支持消费级显卡本地部署，主打快速迭代与低成本应用，累计下载量极高，成为个人开发者入门的首选模型之一。

GLM-4：2024年6月发布的旗舰级文本大模型，全方位对标GPT-4，支持128K长上下文，在MMLU、GSM8K等多个基准测试中表现优异，分为基础版与All Tools版，后者具备强大的工具调用能力。

GLM-4.5：2025年8月与GLM 4.5V同期发布，3550亿MoE架构，主打代码生成与通用推理，采用ARC框架统一智能体、推理与编程能力，是GLM 4.5V的文本能力支撑伙伴。

GLM-4.1V-Thinking：2025年7月发布的10B级开源视觉模型，以小体积实现高性能，上线后迅速登上HuggingFace Trending榜首，累计下载超13万次，是GLM 4.5V的直接技术前身。

GLM-4.6V：2025年12月发布，在GLM 4.5V基础上升级，新增多模态原生工具调用能力，支持文档、图像直接作为工具输入，进一步强化视觉与工具的联动能力。

三、核心技术剖析

3.1 固有技术

GLM 4.5V继承了GLM系列的核心底层技术，基础架构延续自上一代视觉模型GLM-4.1V-Thinking，并基于智谱新一代文本基座模型GLM-4.5-Air进行训练，确保文本理解与视觉推理的协同性。底层采用“视觉编码器+MLP适配器+语言解码器”的经典多模态架构，其中语言解码器沿用GLM系列标志性的自回归填空任务架构，保留了对中英文的优秀处理能力，以及多阶段对齐手段——通过预训练、监督微调（SFT）和强化学习（RL）的三阶段策略，实现模型与人类意图的精准对齐，这一技术继承自GLM-4系列，有效降低了模型的幻觉率。同时，模型延续了GLM-4.1V-Thinking的视觉推理路线，保留了基础的图像识别与场景理解能力，为后续性能升级奠定了基础。

3.2 创新技术

GLM 4.5V的核心创新集中在视觉处理与推理优化上，针对性解决了上一代模型的性能短板，具体创新点如下：

1. 三维旋转位置编码（3D-RoPE）：这是模型在多模态空间感知上的核心创新，不同于传统的二维位置编码，3D-RoPE能够捕捉图像、视频中的三维空间关系，让模型更精准地理解物体的空间位置、层级关系，比如在视觉定位任务中，能精准识别目标物体并输出坐标框，在高空遥感监测、安全质量检查等场景中表现突出；同时，该技术也提升了视频处理的连贯性，让模型能更好地分析长视频的分镜逻辑与事件关联。

2. 双三次插值机制：专门针对高分辨率图像与极端宽高比图像的处理痛点设计，传统模型在处理这类图像时，容易出现细节丢失、拉伸失真等问题，而双三次插值机制能通过精准的像素插值计算，保留图像的细节信息，增强模型对复杂图像的处理稳健性，比如在解析复杂图表、高清截图时，能更准确地提取文字与数据信息。

3. 显式“思维链”SFT训练：在监督微调阶段，引入显式“思维链”格式训练样本，让模型在进行视觉推理时，能像人类一样逐步拆解问题、梳理逻辑，而非直接输出结果。例如在看图猜地点任务中，模型会先识别图像中的环境特征、文字信息，再结合自身知识库进行推理，即使最终结果有误，推理过程也具备参考价值；这一创新也增强了模型在STEM问题、多模态定位等复杂任务中的表现。

4. 全领域多模态课程强化学习：在强化学习阶段，引入全领域多模态奖励系统，结合可验证奖励强化学习（RLVR）与基于人类反馈的强化学习（RLHF），对模型的多场景能力进行全面优化。不同于单一领域的强化学习，这种方式让模型在图像、视频、GUI、文档等多个场景中均能保持高性能，避免了“偏科”问题，同时进一步降低了模型的幻觉率。

5. 可切换“思考模式”：新增“思考模式”开关，用户可根据需求选择“深度推理”或“高效输出”两种模式，平衡推理精度与响应速度。深度推理模式适合复杂的视觉分析、代码复现等任务，高效输出模式则适合简单的图像识别、信息提取，提升日常使用效率，这一设计兼顾了专业场景与普通用户的需求。

四、表现评估

4.1 历史与现状

GLM 4.5V刚发布时，凭借1060亿参数的规模、41个公开视觉多模态榜单中的SOTA性能，迅速成为开源多模态领域的焦点，填补了百亿级开源视觉模型的性能空白，上线后短期内便获得大量开发者关注，成为当时国产开源多模态模型的标杆之一。彼时，其网页代码复现、视觉定位等功能的实测表现，甚至超越了同期的Qwen2.5-VL等模型，引发行业对国产开源多模态技术的关注。截至2026年4月，GLM 4.5V仍是智谱AI开源多模态领域的主力模型，虽已被后续的GLM-4.6V迭代，但由于其开源免费、部署成本低、性能稳定，仍被大量个人开发者与中小企业采用；同时，随着AutoGLM 2.0智能体的推广，GLM 4.5V作为其核心驱动模型之一，应用场景进一步拓展，并未被市场淘汰。

4.2 优势亮点

结合业内实测与多模态榜单数据，GLM 4.5V的优势主要集中在以下三个维度，表现突出：

1. 视觉推理与定位精度优异：在41个公开视觉多模态榜单中，GLM 4.5V的得分超过同尺寸模型（如Step-3、Qwen2.5-VL等），综合性能达到同级别开源模型SOTA水平。实测中，模型能准确识别图像中的场景、物体细节，甚至能根据普通照片推测地点并精准到经纬度；视觉定位能力突出，可精准识别目标物体并输出坐标框，优于传统视觉模型，适合安全检查、遥感监测等场景。

2. 多场景适配性强：支持静态图像、最长约两小时的视频、GUI界面、复杂图表、长文档等多种输入形态，覆盖全场景视觉推理需求。在GUI任务中，能识别屏幕图标、解读购物网站折扣信息，支撑AutoGLM等智能体的桌面操作功能；在文档处理中，可直接通过视觉方式读取图片、图表，避免OCR提取的错误传递，精准提取研报、PDF中的结构化信息；在生产力场景中，能根据网页录屏、截图复现前端代码，还原页面布局与核心信息，虽存在一定局限性，但在同级别开源模型中表现领先。

3. 性价比与部署灵活性高：作为百亿级参数的开源模型，GLM 4.5V兼顾性能与部署成本，支持本地部署，适合个人开发者与中小企业使用；API调用价格低于同类模型，输入2元/Mtokens、输出6元/Mtokens的定价，降低了企业级应用的成本；同时，模型支持自定义提示词、模型设置等，给开发者提供了较大的自由度，便于二次开发与场景适配。

4.3 缺点与不足

客观来看，GLM 4.5V仍存在一些明显短板，主要集中在以下方面：

1. 视觉识别存在盲区与误差：实测中发现，模型对非简体字的识别精度不足，曾将灵隐寺路灯上的非简体“灵隐寺”误识别为“宝原青”，将“感恩”误识别为“威胜”，导致场景推理出现偏差；对无明显地标性信息的复杂图像，推理准确率较低，容易出现地点误判等问题。

2. 代码复现能力存在局限：虽然支持网页录屏/截图复现代码，但实际表现不稳定，当访问量较大时，可能出现长时间无法返回结果的情况；复现的网页代码在细节上存在不足，比如无法还原小红书瀑布流的布局感，部分交互功能无法实现，对动态操作的还原能力较弱，需依赖视频输入才能改善。

3. 长视频处理效率有待提升：尽管支持最长约两小时的视频输入，但模型采用的三维卷积技术在处理超长时间视频时，推理速度会明显下降，且容易出现分镜分析不连贯、关键事件遗漏的情况，难以满足大规模长视频解析的需求。

4. 数学与复杂推理能力薄弱：作为侧重视觉推理的多模态模型，其数学计算、复杂逻辑推理能力相较于同系列的GLM 4.5有明显差距，在STEM领域的复杂问题处理上，表现不如GPT-4V、Claude 3 Opus等闭源模型，甚至落后于部分专注于推理的文本大模型。

五、重大事件

1. 2025年8月11日，GLM 4.5V正式发布并开源：智谱AI于当日晚间对外发布GLM 4.5V，同步在魔搭社区与HuggingFace开放模型下载，发布后迅速引发行业关注，其41个榜单的SOTA性能的成绩，成为国产开源多模态模型的重要突破，标志着智谱AI在视觉推理领域的技术成熟。

2. 2025年8月，实测内容曝光引发热议：智谱东西等媒体对GLM 4.5V进行实测，曝光了其看图猜地点、网页代码复现等功能的表现，虽然存在部分识别误差，但整体性能获得认可，相关实测链接与结果在AI圈广泛传播，进一步提升了模型的知名度，吸引了大量开发者下载试用。

3. 2025年8月下旬，成为AutoGLM 2.0核心驱动模型：智谱AI发布AutoGLM 2.0，这是全球首个面向普通用户的手机通用Agent，GLM 4.5V与GLM 4.5共同作为其核心驱动模型，负责视觉处理与多模态推理任务，标志着GLM 4.5V从“工具模型”正式落地到“执行型智能体”场景，拓展了其应用边界。

2025年以来，持续占据开源多模态热门榜单：GLM 4.5V发布后，长期位居HuggingFace Trending相关榜单前列，累计获得大量下载与star，成为个人开发者研究多模态技术、企业搭建低成本多模态解决方案的首选模型之一，推动了开源多模态技术的普及与应用。

Question 2

GLM 4.5V的API价格是多少？

Accepted Answer

GLM 4.5V的API输入价格为4.3500元/百万Token，输出价格为13.0500元/百万Token。

Question 3

GLM 4.5V支持哪些功能？

Accepted Answer

GLM 4.5V的功能特性信息暂未收录。

Question 4

GLM 4.5V是国产模型吗？

Accepted Answer

是的，GLM 4.5V是由Zhipu开发的国产AI大模型，可直接访问使用。

GLM 4.5V

📖
词条百科 Wiki

📑 章节目录

# 一、简介与定位

# 二、发展历程

# 2.1 研发背景

# 2.2 关键节点

# 2.3 家族构成

# 三、核心技术剖析

# 3.1 固有技术

# 3.2 创新技术

# 四、表现评估

# 4.1 历史与现状

# 4.2 优势亮点

# 4.3 缺点与不足

# 五、重大事件

📊
能力雷达星图

数据采集中

⏳模型家族构成

🔗 相关链接

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API

平台：OpenRouter 模型：GLM 4.5V

⚡ 体验反馈与渠道测速

🤝 第三方测速反馈

⚔️
性能对标产品

Hy3 preview(high)

Qwen3.6-27B(Thinking)

MiMo V2.5 Pro Base

MiMo V2.5 Base

社区真实评价