SuperCLUE中文幻觉控制排行榜

SuperCLUE中文幻觉控制能力排行榜，测试模型减少幻觉和错误生成的能力

排名	模型	机构	评分
1	Gemini 3.1 Pro Preview (High)	Google
2	Claude Opus 4.7 (high)	Anthropic
3	GPT 5.5 High	OpenAI
4	Gemini 3.5 Flash (high)	Google
5	Doubao Seed 2.0 Pro 260215 (High)	ByteDance
6	DeepSeek V4 Pro (Max)	DeepSeek
7	Qwen3.7 Max	Qwen
8	Kimi K2.6	moonshot
9	DeepSeek V4 Flash (Max)	DeepSeek
10	Qwen 3.6 Max Preview	alibaba

SuperCLUE 中文大模型排行榜

中文大模型评测基准，综合评估AI模型中文理解与生成能力

总分代码生成数学推理指令遵循科学推理幻觉控制智能体

幻觉控制能力排行

排名	模型	机构	总分	代码	数学	指令	科学	幻觉	智能体	变动
🥇	Gemini 3.1 Pro Preview (High)	Google	76	81	82	56	72	87	75	—
🥈	GPT 5.5 High	OpenAI	74	73	82	53	63	87	87	—
🥉	Gemini 3.5 Flash (high)	Google	72	71	82	45	75	86	70	—
#4	Qwen 3.6 Max Preview	alibaba	67	66	67	32	68	85	83	—
#5	Qwen3.7 Max	Qwen	70	80	82	31	74	83	71	—
#6	Gemma 4 31B	Google	58	66	75	1	67	83	57	—
#7	Claude Opus 4.7 (high)	Anthropic	74	79	81	56	68	81	76	—
#8	Doubao Seed 2.0 Pro 260215 (High)	ByteDance	70	68	77	44	75	80	76	↓ 2
#9	DeepSeek V4 Pro (Max)	DeepSeek	70	75	72	49	70	79	78	—
#10	Kimi K2.6	moonshot	69	76	76	30	70	79	81	—
#11	Doubao-Seed-2.0-lite-260428(high)	ByteDance	66	58	75	40	72	79	73	—
#12	Ernie 5.1	Baidu	63	58	68	48	58	77	70	—
#13	Qwen3.6-27B(Thinking)	Qwen	62	63	68	21	68	77	73	—
#14	GLM 5.1	Zhipu	63	71	70	29	68	75	67	—
#15	DeepSeek V4 Flash (Max)	DeepSeek	67	67	83	37	72	71	76	↓ 3
#16	Grok 4.3	xAI	56	67	58	23	61	71	54	—
#17	Hy3 preview(high)	Unknown	50	56	51	9	58	68	56	—
#18	MiMo V2.5 Pro	Xiaomi	57	68	70	13	67	65	62	—
#19	Spark X2	iFlytek	55	51	68	3	70	63	72	↑ 3
#20	Step 3.5 Flash	StepFun	54	63	65	12	60	61	65	—
#21	Minimax M2.7	MiniMax	52	62	65	23	46	57	60	↓ 2