GLM 4.5V

GLM 4.5V

glm-4-5v

机构/公司
Zhipu(国内 🇨🇳)
发布日期
未披露
版本状态
⭐ 当前主力
开源状态
🌍 开源可见
能力模态
💬 大语言模型
上下文长度
未知
参数规模:暂未收录
主要语言:暂未收录
底层架构:暂未收录
开源协议:暂未收录
官方计费模式:参见下方【使用模块】

📖
词条百科 Wiki

# 一、简介与定位

中国北京智谱华章科技股份有限公司(简称“智谱AI”)于2025年8月11日,正式发布了一款开源旗舰级多模态视觉推理大模型——GLM 4.5V。

GLM 4.5V的名称中,“GLM”是“General Language Model”(通用语言模型)的缩写,延续智谱GLM系列的命名传统;“4.5”代表其处于GLM 4系列的中期迭代版本,相较于4.0系列有显著升级;“V”是“Vision”(视觉)的缩写,明确其多模态核心属性,主打视觉推理与多形态输入处理。核心功能涵盖图像推理、视频理解、GUI任务处理、复杂图表与长文档解析、视觉定位等全场景视觉推理能力,同时支持网页录屏/截图复现代码、图标识别等生产力功能。官方使用门槛友好,模型已在魔搭社区与HuggingFace开源,用户可免费获取并部署;API调用需在智谱开放平台获取密钥,无明确免费额度,收费标准为输入2元/Mtokens、输出6元/Mtokens,无明显使用权限限制;同期发布的“兄弟模型”为GLM 4.5,一款侧重代码与推理的文本大模型,两者协同支撑智谱AI的智能体生态。

当前GLM 4.5V处于生命周期的稳定迭代阶段,尚未被淘汰,仍是智谱AI开源多模态领域的主力模型之一;其最突出的核心特点是,以1060亿总参数、120亿激活参数的规模,实现同级别开源模型中的SOTA性能,兼顾视觉推理精度与部署性价比,可灵活适配个人开发者与企业级场景。

# 二、发展历程

# 2.1 研发背景

GLM 4.5V发布前,多模态领域已形成激烈竞争格局,主流模型分为两大阵营:一是开源阵营,如Qwen2.5-VL、Step-3等,虽具备基础视觉处理能力,但在复杂场景推理、长上下文多模态交互上存在短板;二是闭源阵营,如GPT-4V、Claude 3 Opus,虽性能强劲,但存在使用成本高、无法本地部署、数据隐私难以保障等问题。同时,行业内对多模态模型的核心需求已从“能识别”转向“能推理、能执行”,尤其是GUI智能体、复杂文档解析等实用场景的需求激增,而当时开源模型普遍存在视觉定位精度不足、视频处理效率低、推理逻辑不连贯等痛点。在此背景下,智谱AI基于自身GLM系列的技术积累,延续GLM-4.1V-Thinking的视觉推理路线,推出GLM 4.5V,旨在填补开源高参数多模态模型的性能空白,提供高性价比、可落地的多模态解决方案。

# 2.2 关键节点

智谱AI在2025年初启动GLM 4.5V的研发立项,核心目标是突破上一代GLM-4.1V-Thinking(9B参数)的性能瓶颈,打造百亿级参数的开源视觉推理标杆。立项后,团队重点推进视觉编码器与语言解码器的融合优化,结合大规模图文交错语料进行预训练,并于2025年7月完成内部内测,期间重点测试了视觉定位、网页代码复现、长文档解析等核心功能,优化了模型的推理速度与幻觉问题。2025年8月11日晚间,智谱AI正式对外发布GLM 4.5V,同步开放模型开源下载与API调用服务;发布次日,模型相关实测内容曝光,其看图猜地点、网页代码复现等功能引发行业关注,迅速登上HuggingFace Trending榜单。后续至2026年3月,智谱AI围绕GLM 4.5V进行小幅迭代,优化了高分辨率图像处理与视频分镜分析能力,适配AutoGLM 2.0智能体的落地需求。

# 2.3 家族构成

GLM 4.5V隶属于智谱AI的GLM系列大模型家族,该家族涵盖语言、视觉、代码、智能体等多个细分方向,核心成员及定位如下:

GLM-130B:2022年8月发布的百亿级双语稠密基座模型,是GLM系列的奠基之作,具备与GPT-3相当的性能,支持INT4量化部署,为后续系列模型提供了核心架构基础。

ChatGLM-6B:2023年3月发布的轻量级开源模型,仅62亿参数,支持消费级显卡本地部署,主打快速迭代与低成本应用,累计下载量极高,成为个人开发者入门的首选模型之一。

GLM-4:2024年6月发布的旗舰级文本大模型,全方位对标GPT-4,支持128K长上下文,在MMLU、GSM8K等多个基准测试中表现优异,分为基础版与All Tools版,后者具备强大的工具调用能力。

GLM-4.5:2025年8月与GLM 4.5V同期发布,3550亿MoE架构,主打代码生成与通用推理,采用ARC框架统一智能体、推理与编程能力,是GLM 4.5V的文本能力支撑伙伴。

GLM-4.1V-Thinking:2025年7月发布的10B级开源视觉模型,以小体积实现高性能,上线后迅速登上HuggingFace Trending榜首,累计下载超13万次,是GLM 4.5V的直接技术前身。

GLM-4.6V:2025年12月发布,在GLM 4.5V基础上升级,新增多模态原生工具调用能力,支持文档、图像直接作为工具输入,进一步强化视觉与工具的联动能力。

# 三、核心技术剖析

# 3.1 固有技术

GLM 4.5V继承了GLM系列的核心底层技术,基础架构延续自上一代视觉模型GLM-4.1V-Thinking,并基于智谱新一代文本基座模型GLM-4.5-Air进行训练,确保文本理解与视觉推理的协同性。底层采用“视觉编码器+MLP适配器+语言解码器”的经典多模态架构,其中语言解码器沿用GLM系列标志性的自回归填空任务架构,保留了对中英文的优秀处理能力,以及多阶段对齐手段——通过预训练、监督微调(SFT)和强化学习(RL)的三阶段策略,实现模型与人类意图的精准对齐,这一技术继承自GLM-4系列,有效降低了模型的幻觉率。同时,模型延续了GLM-4.1V-Thinking的视觉推理路线,保留了基础的图像识别与场景理解能力,为后续性能升级奠定了基础。

# 3.2 创新技术

GLM 4.5V的核心创新集中在视觉处理与推理优化上,针对性解决了上一代模型的性能短板,具体创新点如下:

1.  三维旋转位置编码(3D-RoPE):这是模型在多模态空间感知上的核心创新,不同于传统的二维位置编码,3D-RoPE能够捕捉图像、视频中的三维空间关系,让模型更精准地理解物体的空间位置、层级关系,比如在视觉定位任务中,能精准识别目标物体并输出坐标框,在高空遥感监测、安全质量检查等场景中表现突出;同时,该技术也提升了视频处理的连贯性,让模型能更好地分析长视频的分镜逻辑与事件关联。

2.  双三次插值机制:专门针对高分辨率图像与极端宽高比图像的处理痛点设计,传统模型在处理这类图像时,容易出现细节丢失、拉伸失真等问题,而双三次插值机制能通过精准的像素插值计算,保留图像的细节信息,增强模型对复杂图像的处理稳健性,比如在解析复杂图表、高清截图时,能更准确地提取文字与数据信息。

3.  显式“思维链”SFT训练:在监督微调阶段,引入显式“思维链”格式训练样本,让模型在进行视觉推理时,能像人类一样逐步拆解问题、梳理逻辑,而非直接输出结果。例如在看图猜地点任务中,模型会先识别图像中的环境特征、文字信息,再结合自身知识库进行推理,即使最终结果有误,推理过程也具备参考价值;这一创新也增强了模型在STEM问题、多模态定位等复杂任务中的表现。

4.  全领域多模态课程强化学习:在强化学习阶段,引入全领域多模态奖励系统,结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),对模型的多场景能力进行全面优化。不同于单一领域的强化学习,这种方式让模型在图像、视频、GUI、文档等多个场景中均能保持高性能,避免了“偏科”问题,同时进一步降低了模型的幻觉率。

5.  可切换“思考模式”:新增“思考模式”开关,用户可根据需求选择“深度推理”或“高效输出”两种模式,平衡推理精度与响应速度。深度推理模式适合复杂的视觉分析、代码复现等任务,高效输出模式则适合简单的图像识别、信息提取,提升日常使用效率,这一设计兼顾了专业场景与普通用户的需求。

# 四、表现评估

# 4.1 历史与现状

GLM 4.5V刚发布时,凭借1060亿参数的规模、41个公开视觉多模态榜单中的SOTA性能,迅速成为开源多模态领域的焦点,填补了百亿级开源视觉模型的性能空白,上线后短期内便获得大量开发者关注,成为当时国产开源多模态模型的标杆之一。彼时,其网页代码复现、视觉定位等功能的实测表现,甚至超越了同期的Qwen2.5-VL等模型,引发行业对国产开源多模态技术的关注。截至2026年4月,GLM 4.5V仍是智谱AI开源多模态领域的主力模型,虽已被后续的GLM-4.6V迭代,但由于其开源免费、部署成本低、性能稳定,仍被大量个人开发者与中小企业采用;同时,随着AutoGLM 2.0智能体的推广,GLM 4.5V作为其核心驱动模型之一,应用场景进一步拓展,并未被市场淘汰。

# 4.2 优势亮点

结合业内实测与多模态榜单数据,GLM 4.5V的优势主要集中在以下三个维度,表现突出:

1.  视觉推理与定位精度优异:在41个公开视觉多模态榜单中,GLM 4.5V的得分超过同尺寸模型(如Step-3、Qwen2.5-VL等),综合性能达到同级别开源模型SOTA水平。实测中,模型能准确识别图像中的场景、物体细节,甚至能根据普通照片推测地点并精准到经纬度;视觉定位能力突出,可精准识别目标物体并输出坐标框,优于传统视觉模型,适合安全检查、遥感监测等场景。

2.  多场景适配性强:支持静态图像、最长约两小时的视频、GUI界面、复杂图表、长文档等多种输入形态,覆盖全场景视觉推理需求。在GUI任务中,能识别屏幕图标、解读购物网站折扣信息,支撑AutoGLM等智能体的桌面操作功能;在文档处理中,可直接通过视觉方式读取图片、图表,避免OCR提取的错误传递,精准提取研报、PDF中的结构化信息;在生产力场景中,能根据网页录屏、截图复现前端代码,还原页面布局与核心信息,虽存在一定局限性,但在同级别开源模型中表现领先。

3.  性价比与部署灵活性高:作为百亿级参数的开源模型,GLM 4.5V兼顾性能与部署成本,支持本地部署,适合个人开发者与中小企业使用;API调用价格低于同类模型,输入2元/Mtokens、输出6元/Mtokens的定价,降低了企业级应用的成本;同时,模型支持自定义提示词、模型设置等,给开发者提供了较大的自由度,便于二次开发与场景适配。

# 4.3 缺点与不足

客观来看,GLM 4.5V仍存在一些明显短板,主要集中在以下方面:

1.  视觉识别存在盲区与误差:实测中发现,模型对非简体字的识别精度不足,曾将灵隐寺路灯上的非简体“灵隐寺”误识别为“宝原青”,将“感恩”误识别为“威胜”,导致场景推理出现偏差;对无明显地标性信息的复杂图像,推理准确率较低,容易出现地点误判等问题。

2.  代码复现能力存在局限:虽然支持网页录屏/截图复现代码,但实际表现不稳定,当访问量较大时,可能出现长时间无法返回结果的情况;复现的网页代码在细节上存在不足,比如无法还原小红书瀑布流的布局感,部分交互功能无法实现,对动态操作的还原能力较弱,需依赖视频输入才能改善。

3.  长视频处理效率有待提升:尽管支持最长约两小时的视频输入,但模型采用的三维卷积技术在处理超长时间视频时,推理速度会明显下降,且容易出现分镜分析不连贯、关键事件遗漏的情况,难以满足大规模长视频解析的需求。

4.  数学与复杂推理能力薄弱:作为侧重视觉推理的多模态模型,其数学计算、复杂逻辑推理能力相较于同系列的GLM 4.5有明显差距,在STEM领域的复杂问题处理上,表现不如GPT-4V、Claude 3 Opus等闭源模型,甚至落后于部分专注于推理的文本大模型。

# 五、重大事件

1.  2025年8月11日,GLM 4.5V正式发布并开源:智谱AI于当日晚间对外发布GLM 4.5V,同步在魔搭社区与HuggingFace开放模型下载,发布后迅速引发行业关注,其41个榜单的SOTA性能的成绩,成为国产开源多模态模型的重要突破,标志着智谱AI在视觉推理领域的技术成熟。

2.  2025年8月,实测内容曝光引发热议:智谱东西等媒体对GLM 4.5V进行实测,曝光了其看图猜地点、网页代码复现等功能的表现,虽然存在部分识别误差,但整体性能获得认可,相关实测链接与结果在AI圈广泛传播,进一步提升了模型的知名度,吸引了大量开发者下载试用。

3.  2025年8月下旬,成为AutoGLM 2.0核心驱动模型:智谱AI发布AutoGLM 2.0,这是全球首个面向普通用户的手机通用Agent,GLM 4.5V与GLM 4.5共同作为其核心驱动模型,负责视觉处理与多模态推理任务,标志着GLM 4.5V从“工具模型”正式落地到“执行型智能体”场景,拓展了其应用边界。

2025年以来,持续占据开源多模态热门榜单:GLM 4.5V发布后,长期位居HuggingFace Trending相关榜单前列,累计获得大量下载与star,成为个人开发者研究多模态技术、企业搭建低成本多模态解决方案的首选模型之一,推动了开源多模态技术的普及与应用。

由本站联合社区极客共同编撰,最后更新:2026-05-02 16:01:24
开放 Wiki 模式开启中

📊
能力雷达星图

权威基准

数据采集中

该模型太新啦!百科已抢先收录基础档案,权威雷达图评测数据正在快马加鞭测试中。

模型家族构成

🔗 相关链接

词条待补全

没有找到体验地址?去反馈!

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API
API价格
实时更新
平台:OpenRouter 模型:GLM 4.5V
输入(/1M)4.35
输出(/1M)13.05
价格由固定汇率换算而来,可能存在细微差距。

体验反馈与渠道测速

🤝 第三方测速反馈
🔌
平台:OpenRouter
模型:GLM 4.5V
状态:暂无反馈0 票
前往直达

⚔️
性能对标产品

AI

Hy3 preview(high)

Unknown
Qwen3.6-27B(Thinking)

Qwen3.6-27B(Thinking)

Qwen
MiMo V2.5 Pro Base

MiMo V2.5 Pro Base

Xiaomi
MiMo V2.5 Base

MiMo V2.5 Base

Xiaomi
💬

社区真实评价

🤐

登录后才能发表评价,与极客们一起交流哦~

正在拉取评论数据...