SuperCLUE中文指令遵循排行榜

SuperCLUE中文指令遵循能力排行榜，测试模型按照中文指令执行任务的能力

排名	模型	机构	评分
1	Gemini 3.1 Pro Preview (High)	Google
2	Claude Opus 4.7 (high)	Anthropic
3	GPT 5.5 High	OpenAI
4	Gemini 3.5 Flash (high)	Google
5	Doubao Seed 2.0 Pro 260215 (High)	ByteDance
6	DeepSeek V4 Pro (Max)	DeepSeek
7	Qwen3.7 Max	Qwen
8	Kimi K2.6	moonshot
9	Qwen 3.6 Max Preview	alibaba
10	DeepSeek V4 Flash (Max)	DeepSeek

SuperCLUE 中文大模型排行榜

中文大模型评测基准，综合评估AI模型中文理解与生成能力

总分代码生成数学推理指令遵循科学推理幻觉控制智能体

指令遵循能力排行

排名	模型	机构	总分	代码	数学	指令	科学	幻觉	智能体	变动
🥇	Gemini 3.1 Pro Preview (High)	Google	76	81	82	56	72	87	75	—
🥈	Claude Opus 4.7 (high)	Anthropic	74	79	81	56	68	81	76	—
🥉	GPT 5.5 High	OpenAI	74	73	82	53	63	87	87	—
#4	DeepSeek V4 Pro (Max)	DeepSeek	70	75	72	49	70	79	78	—
#5	Ernie 5.1	Baidu	63	58	68	48	58	77	70	—
#6	Gemini 3.5 Flash (high)	Google	72	71	82	45	75	86	70	—
#7	Doubao Seed 2.0 Pro 260215 (High)	ByteDance	70	68	77	44	75	80	76	↓ 2
#8	Doubao-Seed-2.0-lite-260428(high)	ByteDance	66	58	75	40	72	79	73	—
#9	DeepSeek V4 Flash (Max)	DeepSeek	67	67	83	37	72	71	76	↓ 3
#10	Qwen 3.6 Max Preview	alibaba	67	66	67	32	68	85	83	—
#11	Qwen3.7 Max	Qwen	70	80	82	31	74	83	71	—
#12	Kimi K2.6	moonshot	69	76	76	30	70	79	81	—
#13	GLM 5.1	Zhipu	63	71	70	29	68	75	67	—
#14	Grok 4.3	xAI	56	67	58	23	61	71	54	—
#15	Minimax M2.7	MiniMax	52	62	65	23	46	57	60	↓ 2
#16	Qwen3.6-27B(Thinking)	Qwen	62	63	68	21	68	77	73	—
#17	MiMo V2.5 Pro	Xiaomi	57	68	70	13	67	65	62	—
#18	Step 3.5 Flash	StepFun	54	63	65	12	60	61	65	—
#19	Hy3 preview(high)	Unknown	50	56	51	9	58	68	56	—
#20	Spark X2	iFlytek	55	51	68	3	70	63	72	↑ 3
#21	Gemma 4 31B	Google	58	66	75	1	67	83	57	—