MMMU Benchmark Leaderboard

MMMU (Massive Multi-discipline Multimodal Understanding) is a benchmark designed to evaluate multimodal models on college-level subject knowledge and deliberate reasoning. Contains 11.5K meticulously collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering across 30 subjects and 183 subfields.

Leaderboard

Top 50 models on MMMU Benchmark Leaderboard (scores from public evaluations).

Rank	Model	Score	Lab
1	Qwen3.6 Plus	86.0%	—
2	GPT-5.1 Instant	85.4%	—
2	GPT-5.1	85.4%	—
2	GPT-5.1 Thinking	85.4%	—
5	GPT-5	84.2%	—
6	Qwen3.5-122B-A10B	83.9%	—
7	Qwen3.6-27B	82.9%	—
7	o3	82.9%	—
9	Qwen3.5-27B	82.3%	—
10	Gemini 2.5 Pro Preview 06-05	82.0%	—
11	Qwen3.6-35B-A3B	81.7%	—
12	o4-mini	81.6%	—
13	Qwen3.5-35B-A3B	81.4%	—
14	Gemini 2.5 Flash	79.7%	—
15	Gemini 2.5 Pro	79.6%	—
16	Step3-VL-10B	78.1%	—
17	Grok-3	78.0%	—
18	o1	77.6%	—
19	Gemini 2.0 Flash Thinking	75.4%	—
20	GPT-4.5	75.2%	—
21	Claude 3.7 Sonnet	75.0%	—
22	GPT-4.1	74.8%	—
23	Claude Sonnet 4	74.4%	—
24	Llama 4 Maverick	73.4%	—
25	Gemini 2.5 Flash-Lite	72.9%	—
26	GPT-4.1 mini	72.7%	—
27	GPT-4o	72.2%	—
28	Gemini 2.0 Flash	70.7%	—
29	QvQ-72B-Preview	70.3%	—
30	Qwen2.5 VL 72B Instruct	70.2%	—
31	Qwen2.5 VL 32B Instruct	70.0%	—
31	Kimi-k1.5	70.0%	—
33	Llama 4 Scout	69.4%	—
34	Claude 3.5 Sonnet	68.3%	—
35	Gemini 2.0 Flash-Lite	68.0%	—
36	Grok-2	66.1%	—
37	Gemini 1.5 Pro	65.9%	—
38	Pixtral Large	64.0%	—
39	Grok-2 mini	63.2%	—
40	Mistral Small 3.2 24B Instruct	62.5%	—
41	Gemini 1.5 Flash	62.3%	—
42	Nova Pro	61.7%	—
43	Llama 3.2 90B Instruct	60.3%	—
44	GPT-4o mini	59.4%	—
45	Mistral Small 3.1 24B Instruct	59.3%	—
45	Mistral Small 3.1 24B Base	59.3%	—
47	Qwen2.5-Omni-7B	59.2%	—
48	Qwen2.5 VL 7B Instruct	58.6%	—
49	Nova Lite	56.2%	—
50	GPT-4.1 nano	55.4%	—

Models tracked

Models with mmmu in their evaluation profile.

View task leaderboards →