LMSYS Arena排行榜是如何计算的？

LMSYS Arena是目前AI领域最知名也最具参考价值的排行榜。它基于全网数百万真实人类盲测投票，通过Elo评分系统计算模型排名。每次用户与两个模型对话后进行偏好选择，这些投票数据汇总后形成最终排名。

为什么不同排行榜的排名差异很大？

不同的评测基准使用不同的测试方法、题库和评估标准。LMSYS Arena基于真实人类盲测，SuperCLUE专注于中文能力，Router排行榜侧重实际使用场景的路由性能。因此，同一模型在不同榜单的排名可能存在显著差异。

排行榜多久更新一次？

不同的榜单更新频率不同。LMSYS Arena持续更新，每周可能有新数据；SuperCLUE通常每月发布一次；其他榜单如Router也保持相对频繁的更新。星盘大模型百科会及时同步最新数据。

排名靠前的模型一定更好吗？

排行榜提供重要的参考价值，但不一定适用于所有场景。高排名模型通常在综合能力上表现优异，但在特定任务（如代码生成、数学推理）上，某些中等排名的专业模型可能表现更好。建议根据具体需求综合考虑。

AI指令遵循排行榜 - 大模型指令执行能力排名

AI大模型指令理解与执行能力排行，测试模型按照用户指令精确执行任务的能力

排名	模型	机构
1	Gemma 3 27B IT	Google
2	Amazon Nova Experimental Chat 11 10	Amazon
3	GLM 4.7 Flash	Zhipu
4	Qwen 3 Next 80B A3B Thinking	alibaba
5	Claude 3.7 Sonnet 20250219	Anthropic
6	Claude 3.5 Sonnet 20241022	Anthropic
7	trinity-large-thinking	Arcee
8	GLM 4.5 Air	Zhipu
9	Qwen 2.5 Max	alibaba
10	Gemini 2.5 Flash Lite Preview 06 17 Thinking	Google

LMSYS Arena 大模型权威排行榜

基于全网数百万真实人类盲测投票的AI大模型能力评测，涵盖代码、数学、创意写作等八大维度

总榜专家困难对话代码数学创意写作指令遵循长文本

指令理解与执行能力

排名	模型	机构	变动
🥇	Gemma 3 27B IT	Google	—
🥈	GLM 4.7 Flash	Zhipu	—
🥉	Hunyuan Turbos 20250416	Tencent	—
#4	Qwen 3 235B A22B	alibaba	—
#5	Qwen 2.5 Max	alibaba	—
#6	Qwen 3 Next 80B A3B Thinking	alibaba	—
#7	trinity-large-thinking	Arcee	—
#8	GLM 4.5 Air	Zhipu	—
#9	Gemini 2.5 Flash Lite Preview 09 2025 No Thinking	Google	—
#10	Amazon Nova Experimental Chat 11 10	Amazon	—
#11	Mistral Medium 2505	Mistral	—
#12	Qwen 3 30B A3B Instruct 2507	alibaba	—
#13	O4 Mini 2025-04-16	OpenAI	—
#14	Trinity Large Preview	Arcee	—
#15	GLM 4.6v	Zhipu	—
#16	Gemini 2.5 Flash Lite Preview 06 17 Thinking	Google	—
#17	Claude 3.5 Sonnet 20241022	Anthropic	—
#18	Mai 1 Preview	Microsoft	—
#19	GPT 4.1 Mini 2025-04-14	OpenAI	—
#20	GPT 5 Mini High	OpenAI	—
#21	Hunyuan T1 20250711	Tencent	—
#22	Kimi K2 0711 Preview	Moonshot	—
#23	DeepSeek V3 0324	DeepSeek	—
#24	Qwen 3.5 Flash	alibaba	—
#25	Qwen 3 Next 80B A3B Instruct	alibaba	—
#26	Mimo V2 Flash (Thinking)	Xiaomi	—
#27	O1 Preview	OpenAI	—
#28	Qwen 3 235B A22B No Thinking	alibaba	—
#29	Claude 3.7 Sonnet 20250219	Anthropic	—
#30	Qwen 3 VL 235B A22B Thinking	alibaba	—
#31	Mimo V2 Flash (Non-Thinking)	Xiaomi	—
#32	Qwen 3 Coder 480B A35B Instruct	alibaba	—
#33	Step 3.5 Flash	StepFun	—
#34	Amazon Nova Experimental Chat 12 10	Amazon	—
#35	Qwen 3 235B A22B Thinking 2507	alibaba	—
#36	MiniMax M2.1 Preview	MiniMax	—
#37	Grok 4 Fast Reasoning	xAI	—
#38	minimax-m2-5	minimax	—
#39	GPT 5.4 Nano High	OpenAI	—
#40	Kimi K2 0905 Preview	Moonshot	—
#41	Longcat Flash Chat	MeiTuan	—
#42	Qwen 3.5 35B A3B	alibaba	—
#43	DeepSeek R1 0528	DeepSeek	—
#44	Claude 4 Sonnet 20250514	Anthropic	—
#45	DeepSeek V3.1 Terminus	DeepSeek	—
#46	DeepSeek R1	DeepSeek	—
#47	Hunyuan Vision 1.5 Thinking	Tencent	—
#48	Grok 4 0709	xAI	—
#49	Mistral Medium 2508	Mistral	—
#50	Qwen 3.5 27B	alibaba	—
#51	Grok 4 Fast Chat	xAI	—
#52	Ernie 5.0 Preview 1022	Baidu	—
#53	Minimax M2.7	MiniMax	—
#54	Grok 4.1 Fast Reasoning	xAI	—
#55	O3 2025-04-16	OpenAI	—
#56	Gemini 2.5 Flash Preview 09 2025	Google	—
#57	Gemini 2.5 Flash	Google	—
#58	Amazon Nova Experimental Chat 26-01-10	Amazon	—
#59	GPT 4.1 2025-04-14	OpenAI	—
#60	DeepSeek V3.1	DeepSeek	—
#61	Mistral Large 3	Mistral	—
#62	GLM 4.5	Zhipu	—
#63	Grok 3 Preview 02-24	xAI	—
#64	Qwen 3.5 122B A10B	alibaba	—
#65	O1 2024-12-17	OpenAI	—
#66	Hunyuan HY3 Preview	Tencent	—
#67	Claude 3.7 Sonnet 20250219 Thinking 32K	Anthropic	—
#68	GPT 5 High	OpenAI	—
#69	Gemini 3.1 Flash Lite Preview	Google	—
#70	Claude 4 Opus 20250514	Anthropic	—
#71	Qwen 3 VL 235B A22B Instruct	alibaba	—
#72	Claude 4.5 Haiku 20251001	Anthropic	—
#73	Longcat Flash Chat 2602 Exp	MeiTuan	—
#74	Claude 4 Sonnet 20250514 Thinking 32K	Anthropic	—
#75	Qwen 3 Max 2025-09-23	alibaba	—
#76	GLM 4.6	Zhipu	—
#77	Qwen 3 235B A22B Instruct 2507	alibaba	—
#78	DeepSeek V3.2 Exp	DeepSeek	—
#79	DeepSeek V3.2 Exp Thinking	DeepSeek	—
#80	GPT 5 Chat	OpenAI	—
#81	Amazon Nova Experimental Chat 26-02-10	Amazon	—
#82	Kimi K2 Thinking Turbo	Moonshot	—
#83	DeepSeek V3.1 Thinking	DeepSeek	—
#84	DeepSeek V3.2 Thinking	DeepSeek	—
#85	DeepSeek V3.2	DeepSeek	—
#86	Ernie 5.0 Preview 1203	Baidu	—
#87	DeepSeek V3.1 Terminus Thinking	DeepSeek	—
#88	GPT 5.2 Chat	OpenAI	—
#89	GPT 5.2 High	OpenAI	—
#90	Qwen 3 Max Preview	alibaba	—
#91	Grok 4.3	xAI	—
#92	GPT 5.1	OpenAI	—
#93	ChatGPT 4o Latest 20250326	OpenAI	—
#94	GLM 4.7	Zhipu	—
#95	Ernie 5.0 0110	Baidu	—
#96	Qwen 3.5 397B A17B	alibaba	—
#97	Grok 4.1	xAI	—
#98	DeepSeek V4 Flash	DeepSeek	—
#99	Grok 4.1 Thinking	xAI	—
#100	MiMo V2.5	xiaomi	—
#101	GPT 5.3 Chat Latest	OpenAI	—
#102	Dola Seed 2.0 Pro	ByteDance	—
#103	Kimi K2.5 Instant	Moonshot	—
#104	Qwen 3.6 Plus	alibaba	—
#105	DeepSeek V4 Flash Thinking	DeepSeek	—
#106	GPT 4.5 Preview 2025-02-27	OpenAI	—
#107	Gemma 4 26B A4B	Google	—
#108	GPT 5.4 Mini High	OpenAI	—
#109	Kimi K2.5 Thinking	Moonshot	—
#110	Gemini 2.5 Pro	Google	—
#111	Claude 4 Opus 20250514 Thinking 16K	Anthropic	—
#112	Qwen 3.6 Max Preview	alibaba	—
#113	Grok 4.20 Beta Multi Agent	xAI	—
#114	GLM 5	Zhipu	—
#115	MiMo V2 Pro	Xiaomi	—
#116	Gemini 3 Flash (Thinking Minimal)	Google	—
#117	GPT 5.1 High	OpenAI	—
#118	DeepSeek V4 Pro	DeepSeek	—
#119	Grok 4.20 Beta Reasoning	xAI	—
#120	Gemma 4 31B	Google	—
#121	DeepSeek V4 Pro Thinking	DeepSeek	—
#122	Grok 4.20 Beta	xAI	—
#123	Claude 4.1 Opus 20250805	Anthropic	—
#124	Kimi K2.6	moonshot	—
#125	Gemini 3 Flash	Google	—
#126	GPT 5.2 Chat 0210	OpenAI	—
#127	GPT 5.5 Instant	OpenAI	—
#128	Ernie 5.1	Baidu	—
#129	Claude 4.1 Opus 20250805 Thinking 16K	Anthropic	—
#130	Claude 4.5 Sonnet 20250929	Anthropic	—
#131	Claude 4.5 Sonnet 20250929 Thinking 32K	Anthropic	—
#132	Muse Spark	Meta	—
#133	GLM 5.1	Zhipu	—
#134	Qwen 3.5 Max Preview	alibaba	—
#135	GPT 5.4	OpenAI	—
#136	Qwen 3.7 Max Preview	alibaba	—
#137	Gemini 3.5 Flash	Google	—
#138	Gemini 3 Pro	Google	—
#139	Claude 4.5 Opus 20251101	Anthropic	—
#140	Claude 4.6 Sonnet	Anthropic	—
#141	MiMo V2.5 Pro	Xiaomi	—
#142	GPT 5.4 High	OpenAI	—
#143	GPT 5.5 High	OpenAI	—
#144	GPT 5.5	OpenAI	—
#145	Claude 4.5 Opus 20251101 Thinking 32K	Anthropic	—
#146	Gemini 3.1 Pro Preview	Google	—
#147	Claude 4.7 Opus	Anthropic	—
#148	Claude 4.6 Opus	Anthropic	—
#149	Claude 4.7 Opus Thinking	Anthropic	—
#150	Claude 4.6 Opus Thinking	Anthropic	—