SuperCLUE中文智能体排行榜

SuperCLUE中文智能体能力排行榜，测试模型作为智能体执行复杂任务的能力

排名	模型	机构	评分
1	Gemini 3.1 Pro Preview (High)	Google
2	Claude Opus 4.7 (high)	Anthropic
3	GPT 5.5 High	OpenAI
4	Gemini 3.5 Flash (high)	Google
5	Doubao Seed 2.0 Pro 260215 (High)	ByteDance
6	DeepSeek V4 Pro (Max)	DeepSeek
7	Qwen3.7 Max	Qwen
8	Kimi K2.6	moonshot
9	DeepSeek V4 Flash (Max)	DeepSeek
10	Qwen 3.6 Max Preview	alibaba

SuperCLUE 中文大模型排行榜

中文大模型评测基准，综合评估AI模型中文理解与生成能力

总分代码生成数学推理指令遵循科学推理幻觉控制智能体

智能体能力排行

排名	模型	机构	总分	代码	数学	指令	科学	幻觉	智能体	变动
🥇	GPT 5.5 High	OpenAI	74	73	82	53	63	87	87	—
🥈	Qwen 3.6 Max Preview	alibaba	67	66	67	32	68	85	83	—
🥉	Kimi K2.6	moonshot	69	76	76	30	70	79	81	—
#4	DeepSeek V4 Pro (Max)	DeepSeek	70	75	72	49	70	79	78	—
#5	Claude Opus 4.7 (high)	Anthropic	74	79	81	56	68	81	76	—
#6	Doubao Seed 2.0 Pro 260215 (High)	ByteDance	70	68	77	44	75	80	76	↓ 2
#7	DeepSeek V4 Flash (Max)	DeepSeek	67	67	83	37	72	71	76	↓ 3
#8	Gemini 3.1 Pro Preview (High)	Google	76	81	82	56	72	87	75	—
#9	Doubao-Seed-2.0-lite-260428(high)	ByteDance	66	58	75	40	72	79	73	—
#10	Qwen3.6-27B(Thinking)	Qwen	62	63	68	21	68	77	73	—
#11	Spark X2	iFlytek	55	51	68	3	70	63	72	↑ 3
#12	Qwen3.7 Max	Qwen	70	80	82	31	74	83	71	—
#13	Gemini 3.5 Flash (high)	Google	72	71	82	45	75	86	70	—
#14	Ernie 5.1	Baidu	63	58	68	48	58	77	70	—
#15	GLM 5.1	Zhipu	63	71	70	29	68	75	67	—
#16	Step 3.5 Flash	StepFun	54	63	65	12	60	61	65	—
#17	MiMo V2.5 Pro	Xiaomi	57	68	70	13	67	65	62	—
#18	Minimax M2.7	MiniMax	52	62	65	23	46	57	60	↓ 2
#19	Gemma 4 31B	Google	58	66	75	1	67	83	57	—
#20	Hy3 preview(high)	Unknown	50	56	51	9	58	68	56	—
#21	Grok 4.3	xAI	56	67	58	23	61	71	54	—