2026-05-22 07:04发布

智谱发布GLM-5.1高速版API

该API输出速度达到400 tokens/s,刷新全球大模型厂商API速度纪录,在保持旗舰性能前提下实现极低延迟,适用于AI编程、实时交互、商业决策、实时语音等高响应要求场景,目前已面向智谱MaaS平台部分企业客户开放。同时ZCube新一代网络架构在GLM-5.1线上生产集群落地,在不增加GPU的前提下,GPU平均推理吞吐提升15%,TTFT P99降低40.6%,节省33%交换机与光模块成本。

查阅原文出处

来自 星盘大模型百科 · 找AI,看星盘