智谱发布GLM-5.1高速版API

该API输出速度达到400 tokens/s，刷新全球大模型厂商API速度纪录，在保持旗舰性能前提下实现极低延迟，适用于AI编程、实时交互、商业决策、实时语音等高响应要求场景，目前已面向智谱MaaS平台部分企业客户开放。同时ZCube新一代网络架构在GLM-5.1线上生产集群落地，在不增加GPU的前提下，GPU平均推理吞吐提升15%，TTFT P99降低40.6%，节省33%交换机与光模块成本。

查阅原文出处(提示：海外地址可能无法正常访问)

来自星盘大模型百科