AI大模型指令理解与执行能力排行,测试模型按照用户指令精确执行任务的能力
| 排名 | 模型 | 机构 | 评分 |
|---|---|---|---|
| 1 | Gemma 3 27B IT | ||
| 2 | Amazon Nova Experimental Chat 11 10 | Amazon | |
| 3 | GLM 4.7 Flash | Zhipu | |
| 4 | Qwen 3 Next 80B A3B Thinking | alibaba | |
| 5 | Claude 3.7 Sonnet 20250219 | Anthropic | |
| 6 | Claude 3.5 Sonnet 20241022 | Anthropic | |
| 7 | trinity-large-thinking | Arcee | |
| 8 | GLM 4.5 Air | Zhipu | |
| 9 | Qwen 2.5 Max | alibaba | |
| 10 | Gemini 2.5 Flash Lite Preview 06 17 Thinking |
基于全网数百万真实人类盲测投票的AI大模型能力评测,涵盖代码、数学、创意写作等八大维度