MMMU-Pro Benchmark Leaderboard

A more robust multi-discipline multimodal understanding benchmark that enhances MMMU through a three-step process: filtering text-only answerable questions, augmenting candidate options, and introducing vision-only input settings. Achieves significantly lower model performance (16.8-26.9%) compared to original MMMU, providing more rigorous evaluation that closely mimics real-world scenarios.

Leaderboard

Top 49 models on MMMU-Pro Benchmark Leaderboard (scores from public evaluations).

Rank	Model	Score	Lab
1	Gemini 3.5 Flash	83.6%	—
2	GPT-5.5	83.2%	—
3	Gemini 3 Flash	81.2%	—
3	GPT-5.4	81.2%	—
5	Gemini 3 Pro	81.0%	—
6	Gemini 3.1 Pro	80.5%	—
7	Muse Spark	80.4%	—
8	Kimi K2.6	80.1%	—
9	GPT-5.2	79.5%	—
10	Qwen3.6 Plus	78.8%	—
11	Kimi K2.5	78.5%	—
12	GPT-5	78.4%	—
13	Claude Opus 4.6	77.3%	—
14	Qwen3.5-122B-A10B	76.9%	—
14	Gemma 4 31B	76.9%	—
16	Gemini 3.1 Flash-Lite	76.8%	—
17	GPT-5.4 mini	76.6%	—
18	o3	76.4%	—
19	GPT-5.5 Instant	76.0%	—
20	Qwen3.6-27B	75.8%	—
21	Claude Sonnet 4.6	75.6%	—
22	Qwen3.6-35B-A3B	75.3%	—
23	Qwen3.5-35B-A3B	75.1%	—
24	Qwen3.5-27B	75.0%	—
25	Gemma 4 26B-A4B	73.8%	—
26	Qwen3 VL 235B A22B Thinking	69.3%	—
27	Qwen3 VL 235B A22B Instruct	68.1%	—
27	Qwen3 VL 32B Thinking	68.1%	—
29	GPT-5.4 nano	66.1%	—
30	Qwen3 VL 32B Instruct	65.3%	—
31	Qwen3 VL 30B A3B Thinking	63.0%	—
32	Qwen3 VL 30B A3B Instruct	60.4%	—
32	Qwen3 VL 8B Thinking	60.4%	—
34	Mistral Small 4	60.0%	—
35	GPT-4o	59.9%	—
36	Llama 4 Maverick	59.6%	—
37	Qwen3 VL 4B Thinking	57.0%	—
38	Qwen3 VL 8B Instruct	55.9%	—
39	Qwen3 VL 4B Instruct	53.2%	—
40	Gemma 4 E4B	52.6%	—
41	Qwen2.5 VL 72B Instruct	51.1%	—
42	Qwen2.5 VL 32B Instruct	49.5%	—
43	Qwen2-VL-72B-Instruct	46.2%	—
44	Llama 3.2 90B Instruct	45.2%	—
45	Gemma 4 E2B	44.2%	—
46	Phi-4-multimodal-instruct	38.5%	—
47	Qwen2.5 VL 7B Instruct	38.3%	—
48	Qwen2.5-Omni-7B	36.6%	—
49	Llama 3.2 11B Instruct	33.0%	—

Models tracked

Models with mmmu-pro in their evaluation profile.

No models linked yet.

View task leaderboards →