Name: GLM 4.6v
Rating: 138 (1 reviews)
Author: Zhipu

Question 1

GLM 4.6v是什么？

Accepted Answer

一、简介与定位

中国的智谱AI（北京智谱华章科技股份有限公司）于2025年12月8日正式发布并开源了GLM 4.6v系列多模态大模型，核心定位为面向多场景的开源旗舰级多模态模型，主打视觉感知与工具调用的深度融合。

GLM 4.6v中，“GLM”是General Language Model（通用语言模型）的缩写，延续智谱GLM系列的命名体系，“4.6”代表其在GLM 4系列中的迭代版本，“v”是Visual（视觉）的缩写，明确其多模态属性；核心功能是原生融合视觉理解与工具调用能力，可直接处理图像、截图、文档等多模态输入，打通“视觉感知-理解-执行”的完整链路。使用门槛方面，该系列模型开源开放，用户可通过GitHub、Hugging Face及魔搭社区获取模型权重、推理代码与示例工程，API调用价格较上一代降价50%，输入1元/百万tokens、输出3元/百万tokens，其中轻量版GLM-4.6V-Flash可免费使用，无强制订阅要求，普通用户与开发者均可自由接入；同期发布的兄弟模型为GLM-4.6V-Flash（9B），与基础版形成高低配组合，覆盖不同部署场景。

目前GLM 4.6v处于生命周期的活跃阶段，尚未被淘汰，仍是智谱AI多模态领域的主力开源模型之一；其最突出的核心特点是首次在模型架构中原生融入工具调用能力，实现多模态输入与工具执行的无缝衔接，视觉理解精度达到同参数规模顶尖水平。

二、发展历程

2.1 研发背景

GLM 4.6v发布前，国内主流多模态大模型主要有智谱GLM-4.5V、阿里通义千问VL系列、百度文心一言4.0多模态版、字节跳动通义千问VL等，海外则有GPT-4o、Claude 3系列、Gemini 3 Pro等。这些模型虽已具备基础的视觉理解能力，但普遍存在痛点：工具调用多基于纯文本，面对图像、复杂文档等多模态内容时，需多次中间转换，易造成信息损失且增加工程复杂度；部分开源模型视觉精度不足，闭源模型则存在使用成本高、定制化难度大的问题。彼时，多模态大模型正从“能看懂”向“能做事”转型，市场亟需一款开源、高精度、原生支持多模态工具调用的模型，GLM 4.6v正是在这样的行业局势下应运而生，填补了开源多模态模型在“感知-执行”链路中的空白。

2.2 关键节点

GLM 4.6v的研发依托智谱AI在GLM系列模型上的技术积累，早在2025年中期，智谱AI便启动了该模型的研发立项，核心目标是解决上一代GLM-4.5V工具调用与视觉理解脱节的问题，重点攻关原生多模态工具调用架构。2025年10月至11月，模型进入内部测试阶段，重点验证视觉理解精度、工具调用流畅度及长上下文处理能力，期间优化了API调用成本与部署兼容性。2025年12月8日，智谱AI正式对外发布GLM 4.6v系列多模态大模型，同步开源模型权重与相关代码，并宣布API降价50%，当天便完成与沐曦股份曦云C系列GPU的Day 0适配，加速模型落地。2026年以来，智谱AI持续对GLM 4.6v进行小幅优化，适配更多开源推理框架，完善示例工程，维持其在同参数开源多模态模型中的竞争力。

2.3 家族构成

GLM 4.6v隶属于智谱GLM大模型家族，该家族自2022年推出GLM-130B后，逐步形成覆盖基座模型、对话模型、多模态模型、专用模型的完整体系，核心成员包括：

GLM-130B：2022年8月发布的1300亿参数双语基座模型，采用INT4量化技术，性能达到GPT-3水平，是GLM家族的基础底座，为后续模型迭代提供了核心架构支撑。

ChatGLM2系列：2023年6月发布，将上下文窗口扩展至32K，推理效率较上一代提升42%，支持低显存部署，主打轻量化对话场景，面向普通用户与中小开发者。

ChatGLM3系列：2023年10月发布，6B参数版本首次支持工具调用，对话能力进一步升级，兼顾轻量化与实用性，适配多场景对话与简单任务执行需求。

GLM-4系列：2024年6月发布，全方位对标GPT-4，采用大规模预训练与多阶段RLHF对齐技术，后续迭代出多个版本，涵盖文本、多模态、长上下文等不同方向，是目前GLM家族的主力系列。

GLM-4.5系列：2025年8月发布，包括GLM-4.5（3550亿MoE架构）与GLM-4.5V（视觉感知增强版），强化了智能体、推理与编程能力，GLM-4.5V为GLM 4.6v的直接前代模型。

GLM-4.6系列：2025年9月至12月陆续发布，包括GLM-4.6（文本型，上下文扩至200K）与GLM-4.6v（多模态型），重点优化工具调用与多模态交互能力，形成文本与视觉的双主力模型。

GLM-5系列：2026年2月起陆续发布，包括GLM-5、GLM-5-Turbo等，采用更大规模的MoE架构，强化智能体工程能力，是GLM家族的新一代旗舰，与GLM 4.6v形成迭代衔接关系。

三、核心技术剖析

3.1 固有技术

GLM 4.6v继承了GLM系列模型的核心底层技术，首先是GLM基座模型的自回归填空架构，这一架构区别于传统Transformer的编码-解码架构，通过“填空式”预训练，让模型更擅长理解上下文语义，提升语言生成的连贯性与准确性，同时具备更强的中文处理能力，这也是其在中文场景表现出色的核心原因之一。其次，它延续了上一代GLM-4.5V的视觉感知底层架构，保留了高精度的图像识别与OCR能力，能够快速解析图像中的物体、文字、场景信息，为多模态工具调用奠定基础。此外，该模型还继承了GLM系列成熟的多阶段RLHF（强化学习从人类反馈中学习）对齐手段，通过人类标注数据优化模型输出，减少无意义内容，提升工具调用的准确性与指令遵循度。

3.2 创新技术

GLM 4.6v的核心创新的是原生多模态工具调用架构，打破了传统多模态模型“视觉理解与工具执行脱节”的痛点，具体创新点分点解读如下，兼顾专业性与通俗性：

1. 原生融合Function Call（工具调用）与视觉模型：这是该模型最核心的创新，区别于传统模型“先将图像转为文字，再进行工具调用”的间接方式，GLM 4.6v从架构设计之初就将工具调用能力融入视觉模型，实现“图像即参数，结果即上下文”。简单来说，用户无需将图片描述成文字，可直接将图像、截图、文档页面作为工具参数输入，模型能直接解析这些多模态内容，无需中间转换，大幅减少信息损失，降低工程复杂度。

2. 双向多模态交互能力：模型不仅能接收多模态输入，还能对工具返回的多模态结果进行二次视觉理解，将其纳入后续推理链路。比如工具返回统计图表、渲染后的网页截图，模型能看懂这些内容，进而继续执行后续操作，形成“输入-处理-输出-再处理”的闭环，适配图文混排输出、商品识别推荐等复杂视觉任务。

3. 128k tokens长上下文窗口优化：GLM 4.6v将训练时的上下文窗口提升至128k tokens，结合优化的注意力机制，解决了多模态模型处理长文本+图像组合输入时的遗忘问题。通俗来讲，即使输入包含长篇文档+多张图像，模型也能记住所有关键信息，不会出现前面的图像细节或文本内容被遗忘的情况，提升长场景多模态任务的处理能力。

4. 同参数规模视觉精度优化：通过优化视觉特征提取网络与训练数据，GLM 4.6v在视觉理解精度上达到同参数规模的SOTA（顶尖水平），尤其是在OCR识别、复杂图像解析等场景，精度较上一代GLM-4.5V有显著提升，9B参数的GLM-4.6V-Flash甚至超过了同参数级别的Qwen3-VL-8B。

四、表现评估

4.1 历史与现状

GLM 4.6v刚发布时，凭借“原生多模态工具调用”与“开源降价”两大亮点，迅速获得行业关注，成为当时开源多模态模型领域的热门产品，发布当天便完成国产GPU适配，吸引了大量开发者接入测试。彼时，它填补了开源模型在“视觉感知-工具执行”链路的空白，在同参数规模模型中，视觉精度与工具调用流畅度均处于领先地位，成为中小开发者与企业部署多模态应用的优选方案。截至2026年4月，随着GLM-5系列模型的发布，GLM 4.6v不再是智谱AI的最新旗舰，但仍是家族中极具竞争力的开源多模态模型，凭借开源免费、部署灵活、适配性强的优势，仍被广泛应用于中小规模多模态应用场景，社区活跃度维持在较高水平，智谱AI也仍在持续提供技术支持与小幅优化。

4.2 优势亮点

结合MMBench、MathVista、OCRBench等30多个主流多模态评测基准数据，以及行业实测反馈，GLM 4.6v的优势亮点主要集中在三个维度，表现突出：

1. 多模态工具调用能力领先：在多模态工具调用场景，GLM 4.6v的表现优于同参数开源模型，其原生融合架构使得工具调用链路更短、效率更高，信息损失更少。实测中，该模型能精准解析图像中的关键信息，并快速调用对应工具执行操作，比如识别商品图片后调用搜索工具查询价格，解析图表后调用分析工具生成报告，流畅度接近部分闭源模型。

2. 视觉理解精度出色：在MMBench、MathVista等评测基准中，GLM 4.6v取得了同参数规模的SOTA表现，其中106B参数（12B激活）版本的表现比肩2倍参数量的Qwen3-VL-235B，9B参数的轻量版则超过Qwen3-VL-8B。尤其在OCR识别、复杂文档解析、图像细节识别等场景，精度表现亮眼，能精准识别图文混排内容中的文字、表格、图形信息。

3. 性价比与部署灵活性高：作为开源模型，GLM 4.6v可免费获取模型权重，支持本地部署与云端部署，轻量版GLM-4.6V-Flash适合低配置设备部署，基础版则适配高性能集群与云端场景。同时，其API调用价格较上一代降价50%，大幅降低了开发者与企业的使用成本，相较于闭源多模态模型，具备极高的性价比，适合中小规模应用落地。

此外，依托GLM系列的中文处理优势，GLM 4.6v在中文多模态场景（如中文图文解析、中文OCR、中文指令下的工具调用）中表现优于部分海外开源模型，适配国内用户需求。

4.3 缺点与不足

客观来看，GLM 4.6v仍存在一些短板，主要集中在三个方面，均为实测中可复现的问题，无夸大或主观评判：

1. 复杂视觉推理能力不足：虽然视觉理解精度较高，但在需要深层逻辑推理的多模态场景中，表现不如高阶闭源模型（如GPT-4o、Gemini 3 Pro）。比如在DeepImageSearch评测基准的多步视觉推理任务中，该模型难以串联分散的视觉线索，无法完成复杂的上下文感知图像检索，推理深度有限。

2. 存在一定的幻觉问题：与多数大模型一样，GLM 4.6v在处理超出自身知识边界的多模态问题时，会出现“一本正经胡说八道”的幻觉现象，尤其是在小众领域的图像解析的场景，可能会生成与图像内容不符的描述，或伪造不存在的信息，这与模型训练数据的覆盖范围和质量密切相关。

3. 高端场景表现不及旗舰模型：作为GLM-4系列的迭代版本，GLM 4.6v在复杂编程、高阶数学推理等场景的表现，不如后续发布的GLM-5系列，也不及同级别闭源模型。实测中，其代码生成能力、复杂数学题求解能力表现一般，更适合基础多模态任务，难以适配高端研发、深度推理等场景。

五、重大事件

1. 2025年12月8日，GLM 4.6v正式发布并开源：智谱AI当天对外推出GLM 4.6v系列多模态模型，同步开源模型权重、推理代码与示例工程，宣布API调用价格降价50%，引发行业广泛关注，成为当天AI领域的热门话题，吸引大量开发者前往GitHub、Hugging Face获取模型资源。

2. 发布当日完成国产GPU Day 0适配：2025年12月8日，沐曦股份宣布其曦云C系列GPU完成对GLM 4.6v系列模型的Day 0适配，依托MXMACA软件栈的优势，实现模型高效推理部署，这一事件加速了GLM 4.6v在国产硬件生态中的落地，提升了模型的部署灵活性。

3. 2025年12月下旬，智谱AI上市带动模型关注度提升：2025年12月22日，智谱AI通过港交所上市聆讯，成为“大模型第一股”，其旗下GLM系列模型受到资本市场与行业的进一步关注，GLM 4.6v作为当时最新的多模态开源模型，下载量与社区活跃度大幅提升，开源社区开始出现大量基于该模型的二次开发与应用案例。

4. 2026年3月，模型性能被权威评测验证：2026年3月，第三方机构发布的国产大模型全景评测报告中，GLM 4.6v在多模态工具调用、视觉理解精度两个维度，位列开源模型前列，其106B参数版本与Qwen3-VL-235B的对比数据，进一步验证了其同参数领先的优势，巩固了其在开源多模态模型领域的地位。

Question 2

GLM 4.6v的API价格是多少？

Accepted Answer

GLM 4.6v的API输入价格为2.1750元/百万Token，输出价格为6.5250元/百万Token。

Question 3

GLM 4.6v支持哪些功能？

Accepted Answer

GLM 4.6v的功能特性信息暂未收录。

Question 4

GLM 4.6v是国产模型吗？

Accepted Answer

是的，GLM 4.6v是由Zhipu开发的国产AI大模型，可直接访问使用。

GLM 4.6v

📖
词条百科 Wiki

📑 章节目录

# 一、简介与定位

# 二、发展历程

# 2.1 研发背景

# 2.2 关键节点

# 2.3 家族构成

# 三、核心技术剖析

# 3.1 固有技术

# 3.2 创新技术

# 四、表现评估

# 4.1 历史与现状

# 4.2 优势亮点

# 4.3 缺点与不足

# 五、重大事件

📊
能力雷达星图

⏳模型家族构成

🔗 相关链接

💻
使用与反馈

💰 计费模式与方案

🤝 第三方代理 / 聚合 API

平台：OpenRouter 模型：GLM 4.6V

⚡ 体验反馈与渠道测速

🤝 第三方测速反馈

⚔️
性能对标产品

Doubao-Seed-2.0-lite-260428(high)

Qwen3.7-Max(Thinking)

Claude Opus 4.7 (high)

Gemini 3.5 Flash (high)

社区真实评价