HumanEval Benchmark Leaderboard

A benchmark that measures functional correctness for synthesizing programs from docstrings, consisting of 164 original programming problems assessing language comprehension, algorithms, and simple mathematics

Leaderboard

Top 50 models on HumanEval Benchmark Leaderboard (scores from public evaluations).

Rank	Model	Score	Lab
1	MiniCPM-SALA	95.1%	—
2	Kimi K2 0905	94.5%	—
3	Claude 3.5 Sonnet	93.7%	—
4	GPT-5	93.4%	—
5	Kimi K2 Instruct	93.3%	—
6	Qwen2.5-Coder 32B Instruct	92.7%	—
7	o1-mini	92.4%	—
8	Sarvam-30B	92.1%	—
9	Claude 3.5 Sonnet	92.0%	—
9	Mistral Large 2	92.0%	—
11	Qwen2.5 VL 32B Instruct	91.5%	—
12	GPT-4o	90.2%	—
13	Granite 3.3 8B Instruct	89.7%	—
13	Granite 3.3 8B Base	89.7%	—
15	Gemini Diffusion	89.6%	—
16	Nova Pro	89.0%	—
16	Llama 3.1 405B Instruct	89.0%	—
16	DeepSeek-V2.5	89.0%	—
19	LongCat-Flash-Chat	88.4%	—
19	Mistral Small 3.1 24B Instruct	88.4%	—
21	Grok-2	88.4%	—
21	Qwen2.5 32B Instruct	88.4%	—
21	Qwen2.5-Coder 7B Instruct	88.4%	—
21	Llama 3.3 70B Instruct	88.4%	—
25	o1	88.1%	—
25	Claude 3.5 Haiku	88.1%	—
27	GPT-4.5	88.0%	—
28	Gemma 3 27B	87.8%	—
29	GPT-4o mini	87.2%	—
30	GPT-4 Turbo	87.1%	—
31	Qwen2.5 72B Instruct	86.6%	—
32	Qwen2 72B Instruct	86.0%	—
33	Grok-2 mini	85.7%	—
34	Gemma 3 12B	85.4%	—
34	Nova Lite	85.4%	—
36	Claude 3 Opus	84.9%	—
37	Qwen2.5 7B Instruct	84.8%	—
37	Mistral Small 3 24B Instruct	84.8%	—
39	Gemini 1.5 Pro	84.1%	—
40	Qwen2.5 14B Instruct	83.5%	—
41	Phi 4	82.6%	—
42	IBM Granite 4.0 Tiny Preview	82.4%	—
43	Nova Micro	81.1%	—
43	Codestral-22B	81.1%	—
45	Llama 3.1 70B Instruct	80.5%	—
46	Qwen2 7B Instruct	79.9%	—
47	Qwen2.5-Omni-7B	78.7%	—
48	Claude 3 Haiku	75.9%	—
49	Gemma 3n E4B Instructed LiteRT Preview	75.0%	—
49	Gemma 3n E4B Instructed	75.0%	—

Models tracked

Models with humaneval in their evaluation profile.

View task leaderboards →