IFEval Benchmark Leaderboard

Instruction-Following Evaluation (IFEval) benchmark for large language models, focusing on verifiable instructions with 25 types of instructions and around 500 prompts containing one or more verifiable constraints

Leaderboard

Top 50 models on IFEval Benchmark Leaderboard (scores from public evaluations).

Rank	Model	Score	Lab
1	Qwen3.5-27B	95.0%	—
2	Qwen3.6 Plus	94.3%	—
3	o3-mini	93.9%	—
4	Qwen3.5-122B-A10B	93.4%	—
5	Claude 3.7 Sonnet	93.2%	—
6	Qwen3.5-397B-A17B	92.6%	—
7	Llama 3.3 70B Instruct	92.1%	—
7	Nova Pro	92.1%	—
9	Qwen3.5-35B-A3B	91.9%	—
10	Qwen3.5-9B	91.5%	—
11	Gemma 3 27B	90.4%	—
12	Nemotron Nano 9B v2	90.3%	—
13	Gemma 3 4B	90.2%	—
14	Kimi K2-Instruct-0905	89.8%	—
14	Kimi K2 Instruct	89.8%	—
14	Qwen3.5-4B	89.8%	—
17	Nova Lite	89.7%	—
18	LongCat-Flash-Chat	89.6%	—
19	Llama 3.1 Nemotron Ultra 253B v1	89.5%	—
20	Gemma 3 12B	88.9%	—
20	Qwen3-Next-80B-A3B-Thinking	88.9%	—
22	Qwen3-235B-A22B-Instruct-2507	88.7%	—
23	Llama 3.1 405B Instruct	88.6%	—
24	GPT-4.5	88.2%	—
24	Qwen3 VL 235B A22B Thinking	88.2%	—
26	Qwen3-235B-A22B-Thinking-2507	87.8%	—
26	Qwen3 VL 235B A22B Instruct	87.8%	—
26	Qwen3 VL 32B Thinking	87.8%	—
29	Qwen3-Next-80B-A3B-Instruct	87.6%	—
30	Llama 3.1 70B Instruct	87.5%	—
31	GPT-4.1	87.4%	—
32	Nova Micro	87.2%	—
32	Kimi-k1.5	87.2%	—
34	DeepSeek-V3	86.1%	—
35	Qwen3 VL 30B A3B Instruct	85.8%	—
36	Phi 4 Reasoning Plus	84.9%	—
37	Sarvam-105B	84.8%	—
38	Qwen3 VL 32B Instruct	84.7%	—
39	Qwen2.5 72B Instruct	84.1%	—
39	GPT-4.1 mini	84.1%	—
41	QwQ-32B	83.9%	—
42	Qwen3 VL 8B Instruct	83.7%	—
43	Phi 4 Reasoning	83.4%	—
44	Qwen3 VL 8B Thinking	83.2%	—
45	Mistral Small 3 24B Instruct	82.9%	—
46	Qwen3 VL 4B Thinking	82.6%	—
47	Qwen3 VL 4B Instruct	82.3%	—
48	Qwen3 VL 30B A3B Thinking	81.7%	—
49	GPT-4o	81.0%	—
50	Llama 3.1 8B Instruct	80.4%	—

Models tracked

Models with ifeval in their evaluation profile.

No models linked yet.

View task leaderboards →