# 一、简介与定位
中国的智谱AI(北京智谱华章科技股份有限公司)于2025年12月8日正式发布并开源了GLM 4.6v系列多模态大模型,核心定位为面向多场景的开源旗舰级多模态模型,主打视觉感知与工具调用的深度融合。
GLM 4.6v中,“GLM”是General Language Model(通用语言模型)的缩写,延续智谱GLM系列的命名体系,“4.6”代表其在GLM 4系列中的迭代版本,“v”是Visual(视觉)的缩写,明确其多模态属性;核心功能是原生融合视觉理解与工具调用能力,可直接处理图像、截图、文档等多模态输入,打通“视觉感知-理解-执行”的完整链路。使用门槛方面,该系列模型开源开放,用户可通过GitHub、Hugging Face及魔搭社区获取模型权重、推理代码与示例工程,API调用价格较上一代降价50%,输入1元/百万tokens、输出3元/百万tokens,其中轻量版GLM-4.6V-Flash可免费使用,无强制订阅要求,普通用户与开发者均可自由接入;同期发布的兄弟模型为GLM-4.6V-Flash(9B),与基础版形成高低配组合,覆盖不同部署场景。
目前GLM 4.6v处于生命周期的活跃阶段,尚未被淘汰,仍是智谱AI多模态领域的主力开源模型之一;其最突出的核心特点是首次在模型架构中原生融入工具调用能力,实现多模态输入与工具执行的无缝衔接,视觉理解精度达到同参数规模顶尖水平。
# 二、发展历程
# 2.1 研发背景
GLM 4.6v发布前,国内主流多模态大模型主要有智谱GLM-4.5V、阿里通义千问VL系列、百度文心一言4.0多模态版、字节跳动通义千问VL等,海外则有GPT-4o、Claude 3系列、Gemini 3 Pro等。这些模型虽已具备基础的视觉理解能力,但普遍存在痛点:工具调用多基于纯文本,面对图像、复杂文档等多模态内容时,需多次中间转换,易造成信息损失且增加工程复杂度;部分开源模型视觉精度不足,闭源模型则存在使用成本高、定制化难度大的问题。彼时,多模态大模型正从“能看懂”向“能做事”转型,市场亟需一款开源、高精度、原生支持多模态工具调用的模型,GLM 4.6v正是在这样的行业局势下应运而生,填补了开源多模态模型在“感知-执行”链路中的空白。
# 2.2 关键节点
GLM 4.6v的研发依托智谱AI在GLM系列模型上的技术积累,早在2025年中期,智谱AI便启动了该模型的研发立项,核心目标是解决上一代GLM-4.5V工具调用与视觉理解脱节的问题,重点攻关原生多模态工具调用架构。2025年10月至11月,模型进入内部测试阶段,重点验证视觉理解精度、工具调用流畅度及长上下文处理能力,期间优化了API调用成本与部署兼容性。2025年12月8日,智谱AI正式对外发布GLM 4.6v系列多模态大模型,同步开源模型权重与相关代码,并宣布API降价50%,当天便完成与沐曦股份曦云C系列GPU的Day 0适配,加速模型落地。2026年以来,智谱AI持续对GLM 4.6v进行小幅优化,适配更多开源推理框架,完善示例工程,维持其在同参数开源多模态模型中的竞争力。
# 2.3 家族构成
GLM 4.6v隶属于智谱GLM大模型家族,该家族自2022年推出GLM-130B后,逐步形成覆盖基座模型、对话模型、多模态模型、专用模型的完整体系,核心成员包括:
GLM-130B:2022年8月发布的1300亿参数双语基座模型,采用INT4量化技术,性能达到GPT-3水平,是GLM家族的基础底座,为后续模型迭代提供了核心架构支撑。
ChatGLM2系列:2023年6月发布,将上下文窗口扩展至32K,推理效率较上一代提升42%,支持低显存部署,主打轻量化对话场景,面向普通用户与中小开发者。
ChatGLM3系列:2023年10月发布,6B参数版本首次支持工具调用,对话能力进一步升级,兼顾轻量化与实用性,适配多场景对话与简单任务执行需求。
GLM-4系列:2024年6月发布,全方位对标GPT-4,采用大规模预训练与多阶段RLHF对齐技术,后续迭代出多个版本,涵盖文本、多模态、长上下文等不同方向,是目前GLM家族的主力系列。
GLM-4.5系列:2025年8月发布,包括GLM-4.5(3550亿MoE架构)与GLM-4.5V(视觉感知增强版),强化了智能体、推理与编程能力,GLM-4.5V为GLM 4.6v的直接前代模型。
GLM-4.6系列:2025年9月至12月陆续发布,包括GLM-4.6(文本型,上下文扩至200K)与GLM-4.6v(多模态型),重点优化工具调用与多模态交互能力,形成文本与视觉的双主力模型。
GLM-5系列:2026年2月起陆续发布,包括GLM-5、GLM-5-Turbo等,采用更大规模的MoE架构,强化智能体工程能力,是GLM家族的新一代旗舰,与GLM 4.6v形成迭代衔接关系。
# 三、核心技术剖析
# 3.1 固有技术
GLM 4.6v继承了GLM系列模型的核心底层技术,首先是GLM基座模型的自回归填空架构,这一架构区别于传统Transformer的编码-解码架构,通过“填空式”预训练,让模型更擅长理解上下文语义,提升语言生成的连贯性与准确性,同时具备更强的中文处理能力,这也是其在中文场景表现出色的核心原因之一。其次,它延续了上一代GLM-4.5V的视觉感知底层架构,保留了高精度的图像识别与OCR能力,能够快速解析图像中的物体、文字、场景信息,为多模态工具调用奠定基础。此外,该模型还继承了GLM系列成熟的多阶段RLHF(强化学习从人类反馈中学习)对齐手段,通过人类标注数据优化模型输出,减少无意义内容,提升工具调用的准确性与指令遵循度。
# 3.2 创新技术
GLM 4.6v的核心创新的是原生多模态工具调用架构,打破了传统多模态模型“视觉理解与工具执行脱节”的痛点,具体创新点分点解读如下,兼顾专业性与通俗性:
1. 原生融合Function Call(工具调用)与视觉模型:这是该模型最核心的创新,区别于传统模型“先将图像转为文字,再进行工具调用”的间接方式,GLM 4.6v从架构设计之初就将工具调用能力融入视觉模型,实现“图像即参数,结果即上下文”。简单来说,用户无需将图片描述成文字,可直接将图像、截图、文档页面作为工具参数输入,模型能直接解析这些多模态内容,无需中间转换,大幅减少信息损失,降低工程复杂度。
2. 双向多模态交互能力:模型不仅能接收多模态输入,还能对工具返回的多模态结果进行二次视觉理解,将其纳入后续推理链路。比如工具返回统计图表、渲染后的网页截图,模型能看懂这些内容,进而继续执行后续操作,形成“输入-处理-输出-再处理”的闭环,适配图文混排输出、商品识别推荐等复杂视觉任务。
3. 128k tokens长上下文窗口优化:GLM 4.6v将训练时的上下文窗口提升至128k tokens,结合优化的注意力机制,解决了多模态模型处理长文本+图像组合输入时的遗忘问题。通俗来讲,即使输入包含长篇文档+多张图像,模型也能记住所有关键信息,不会出现前面的图像细节或文本内容被遗忘的情况,提升长场景多模态任务的处理能力。
4. 同参数规模视觉精度优化:通过优化视觉特征提取网络与训练数据,GLM 4.6v在视觉理解精度上达到同参数规模的SOTA(顶尖水平),尤其是在OCR识别、复杂图像解析等场景,精度较上一代GLM-4.5V有显著提升,9B参数的GLM-4.6V-Flash甚至超过了同参数级别的Qwen3-VL-8B。
# 四、表现评估
# 4.1 历史与现状
GLM 4.6v刚发布时,凭借“原生多模态工具调用”与“开源降价”两大亮点,迅速获得行业关注,成为当时开源多模态模型领域的热门产品,发布当天便完成国产GPU适配,吸引了大量开发者接入测试。彼时,它填补了开源模型在“视觉感知-工具执行”链路的空白,在同参数规模模型中,视觉精度与工具调用流畅度均处于领先地位,成为中小开发者与企业部署多模态应用的优选方案。截至2026年4月,随着GLM-5系列模型的发布,GLM 4.6v不再是智谱AI的最新旗舰,但仍是家族中极具竞争力的开源多模态模型,凭借开源免费、部署灵活、适配性强的优势,仍被广泛应用于中小规模多模态应用场景,社区活跃度维持在较高水平,智谱AI也仍在持续提供技术支持与小幅优化。
# 4.2 优势亮点
结合MMBench、MathVista、OCRBench等30多个主流多模态评测基准数据,以及行业实测反馈,GLM 4.6v的优势亮点主要集中在三个维度,表现突出:
1. 多模态工具调用能力领先:在多模态工具调用场景,GLM 4.6v的表现优于同参数开源模型,其原生融合架构使得工具调用链路更短、效率更高,信息损失更少。实测中,该模型能精准解析图像中的关键信息,并快速调用对应工具执行操作,比如识别商品图片后调用搜索工具查询价格,解析图表后调用分析工具生成报告,流畅度接近部分闭源模型。
2. 视觉理解精度出色:在MMBench、MathVista等评测基准中,GLM 4.6v取得了同参数规模的SOTA表现,其中106B参数(12B激活)版本的表现比肩2倍参数量的Qwen3-VL-235B,9B参数的轻量版则超过Qwen3-VL-8B。尤其在OCR识别、复杂文档解析、图像细节识别等场景,精度表现亮眼,能精准识别图文混排内容中的文字、表格、图形信息。
3. 性价比与部署灵活性高:作为开源模型,GLM 4.6v可免费获取模型权重,支持本地部署与云端部署,轻量版GLM-4.6V-Flash适合低配置设备部署,基础版则适配高性能集群与云端场景。同时,其API调用价格较上一代降价50%,大幅降低了开发者与企业的使用成本,相较于闭源多模态模型,具备极高的性价比,适合中小规模应用落地。
此外,依托GLM系列的中文处理优势,GLM 4.6v在中文多模态场景(如中文图文解析、中文OCR、中文指令下的工具调用)中表现优于部分海外开源模型,适配国内用户需求。
# 4.3 缺点与不足
客观来看,GLM 4.6v仍存在一些短板,主要集中在三个方面,均为实测中可复现的问题,无夸大或主观评判:
1. 复杂视觉推理能力不足:虽然视觉理解精度较高,但在需要深层逻辑推理的多模态场景中,表现不如高阶闭源模型(如GPT-4o、Gemini 3 Pro)。比如在DeepImageSearch评测基准的多步视觉推理任务中,该模型难以串联分散的视觉线索,无法完成复杂的上下文感知图像检索,推理深度有限。
2. 存在一定的幻觉问题:与多数大模型一样,GLM 4.6v在处理超出自身知识边界的多模态问题时,会出现“一本正经胡说八道”的幻觉现象,尤其是在小众领域的图像解析的场景,可能会生成与图像内容不符的描述,或伪造不存在的信息,这与模型训练数据的覆盖范围和质量密切相关。
3. 高端场景表现不及旗舰模型:作为GLM-4系列的迭代版本,GLM 4.6v在复杂编程、高阶数学推理等场景的表现,不如后续发布的GLM-5系列,也不及同级别闭源模型。实测中,其代码生成能力、复杂数学题求解能力表现一般,更适合基础多模态任务,难以适配高端研发、深度推理等场景。
# 五、重大事件
1. 2025年12月8日,GLM 4.6v正式发布并开源:智谱AI当天对外推出GLM 4.6v系列多模态模型,同步开源模型权重、推理代码与示例工程,宣布API调用价格降价50%,引发行业广泛关注,成为当天AI领域的热门话题,吸引大量开发者前往GitHub、Hugging Face获取模型资源。
2. 发布当日完成国产GPU Day 0适配:2025年12月8日,沐曦股份宣布其曦云C系列GPU完成对GLM 4.6v系列模型的Day 0适配,依托MXMACA软件栈的优势,实现模型高效推理部署,这一事件加速了GLM 4.6v在国产硬件生态中的落地,提升了模型的部署灵活性。
3. 2025年12月下旬,智谱AI上市带动模型关注度提升:2025年12月22日,智谱AI通过港交所上市聆讯,成为“大模型第一股”,其旗下GLM系列模型受到资本市场与行业的进一步关注,GLM 4.6v作为当时最新的多模态开源模型,下载量与社区活跃度大幅提升,开源社区开始出现大量基于该模型的二次开发与应用案例。
4. 2026年3月,模型性能被权威评测验证:2026年3月,第三方机构发布的国产大模型全景评测报告中,GLM 4.6v在多模态工具调用、视觉理解精度两个维度,位列开源模型前列,其106B参数版本与Qwen3-VL-235B的对比数据,进一步验证了其同参数领先的优势,巩固了其在开源多模态模型领域的地位。
社区真实评价
登录后才能发表评价,与极客们一起交流哦~