MMLU Benchmark Leaderboard

Massive Multitask Language Understanding benchmark testing knowledge across 57 diverse subjects including STEM, humanities, social sciences, and professional domains

Leaderboard

Top 50 models on MMLU Benchmark Leaderboard (scores from public evaluations).

Rank	Model	Score	Lab
1	GPT-5	92.5%	—
2	o1	91.8%	—
3	GPT-4.5	90.8%	—
3	o1-preview	90.8%	—
5	Sarvam-105B	90.6%	—
5	Qwen3 VL 235B A22B Thinking	90.6%	—
7	Claude 3.5 Sonnet	90.4%	—
7	Claude 3.5 Sonnet	90.4%	—
9	GPT-4.1	90.2%	—
9	Kimi K2 0905	90.2%	—
11	GPT OSS 120B	90.0%	—
12	LongCat-Flash-Chat	89.7%	—
13	Kimi K2-Instruct-0905	89.5%	—
13	Kimi K2 Instruct	89.5%	—
15	Qwen3 VL 235B A22B Instruct	88.8%	—
16	Qwen3 VL 32B Thinking	88.7%	—
16	GPT-4o	88.7%	—
18	DeepSeek-V3	88.5%	—
19	Qwen3 235B A22B	87.8%	—
20	Kimi K2 Base	87.8%	—
21	Qwen3 VL 30B A3B Thinking	87.6%	—
22	GPT-4.1 mini	87.5%	—
22	Grok-2	87.5%	—
24	Kimi-k1.5	87.4%	—
25	Llama 3.1 405B Instruct	87.3%	—
26	o3-mini	86.9%	—
27	Claude 3 Opus	86.8%	—
28	GPT-4 Turbo	86.5%	—
29	Qwen3 VL 32B Instruct	86.4%	—
29	GPT-4	86.4%	—
31	Grok-2 mini	86.2%	—
32	Llama 3.2 90B Instruct	86.0%	—
32	Llama 3.3 70B Instruct	86.0%	—
34	Nova Pro	85.9%	—
34	Gemini 1.5 Pro	85.9%	—
36	GPT-4o	85.7%	—
37	LongCat-Flash-Lite	85.5%	—
38	Llama 4 Maverick	85.5%	—
39	GPT OSS 20B	85.3%	—
40	Qwen3 VL 8B Thinking	85.2%	—
40	o1-mini	85.2%	—
42	Sarvam-30B	85.1%	—
43	Qwen3 VL 30B A3B Instruct	85.0%	—
44	Phi 4	84.8%	—
45	Mistral Large 2	84.0%	—
46	Llama 3.1 70B Instruct	83.6%	—
47	Qwen2.5 32B Instruct	83.3%	—
48	Qwen2 72B Instruct	82.3%	—
49	GPT-4o mini	82.0%	—
50	Qwen3 VL 4B Thinking	81.5%	—

Models tracked

Models with mmlu in their evaluation profile.

View task leaderboards →