Best AI for Overall

Top models across every benchmark

50 models · 5 benchmarks · Ranked by normalized public benchmark scores (SWE-Bench, HumanEval, and related evaluations). Arena live-vote rankings require llm-stats live data — not in our static export yet.

#	Model	Score	Input / 1M	Context	SWE	GPQA	MMLU-Pro	HumanEval	LCB
1	MiniCPM-SALA	95.1	—	256K	—	—	—	95.1%	—
2	Claude Mythos Preview Anthropic	94.2	—	128K	93.9%	94.6%	—	—	—
3	Claude 3.5 Sonnet	93.7	—	—	—	—	—	93.7%	—
4	GPT-5.5 OpenAI	93.6	—	128K	—	93.6%	—	—	—
5	GPT-5.2 Pro	93.2	$1.75/1M	—	—	93.2%	—	—	—
6	GPT-5.4 OpenAI	92.8	—	1M	—	92.8%	—	—	—
7	Qwen2.5-Coder 32B Instruct Qwen	92.7	—	128K	—	—	—	92.7%	—
8	o1-mini OpenAI	92.4	—	—	—	—	—	92.4%	—
9	Claude 3.5 Sonnet	92.0	—	—	—	—	—	92.0%	—
10	Mistral Large 2	92.0	—	128K	—	—	—	92.0%	—
11	Qwen2.5 VL 32B Instruct Qwen	91.5	—	—	—	—	—	91.5%	—
12	Claude Opus 4.7 Anthropic	90.9	—	—	87.6%	94.2%	—	—	—
13	GPT-4o	90.2	—	—	—	—	—	90.2%	—
14	Granite 3.3 8B Base	89.7	—	128K	—	—	—	89.7%	—
15	Granite 3.3 8B Instruct	89.7	—	128K	—	—	—	89.7%	—
16	Gemini Diffusion Google	89.6	—	—	—	—	—	89.6%	—
17	DeepSeek-V2.5 DeepSeek	89.0	—	—	—	—	—	89.0%	—
18	Llama 3.1 405B Instruct	89.0	—	128K	—	—	—	89.0%	—
19	Nova Pro Amazon	89.0	—	—	—	—	—	89.0%	—
20	Kimi K2 0905 Moonshot	88.5	—	256K	—	—	82.5%	94.5%	—
21	Mistral Small 3.1 24B Instruct Mistral	88.4	—	128K	—	—	—	88.4%	—
22	Grok-2	88.4	—	—	—	—	—	88.4%	—
23	Llama 3.3 70B Instruct	88.4	—	128K	—	—	—	88.4%	—
24	Qwen2.5 32B Instruct Qwen	88.4	—	8K	—	—	—	88.4%	—
25	Qwen2.5-Coder 7B Instruct Qwen	88.4	—	128K	—	—	—	88.4%	—
26	Claude 3.5 Haiku Anthropic	88.1	—	—	—	—	—	88.1%	—
27	GPT-5 Medium	88.1	—	—	—	88.1%	—	—	—
28	GPT-5.1 High	88.1	—	—	—	88.1%	—	—	—
29	o1	88.1	—	—	—	—	—	88.1%	—
30	GPT-4.5 OpenAI	88.0	—	128K	—	—	—	88.0%	—
31	GPT-5.4 mini OpenAI	88.0	—	128K	—	88.0%	—	—	—
32	DeepSeek-V4-Pro-Max DeepSeek	87.9	—	—	80.6%	90.1%	87.5%	—	93.5%
33	Gemma 3 27B Google	87.8	—	128K	—	—	—	87.8%	—
34	Gemini 3.1 Pro	87.5	—	—	80.6%	94.3%	—	—	—
35	GPT-5 High	87.3	—	—	—	87.3%	—	—	—
36	Kimi K2 Instruct	87.2	—	—	—	—	81.1%	93.3%	—
37	GPT-4o mini OpenAI	87.2	—	128K	—	—	—	87.2%	—
38	GPT-4 Turbo	87.1	—	—	—	—	—	87.1%	—
39	Gemini 3.1 Flash-Lite	86.9	—	32K	—	86.9%	—	—	—
40	DeepSeek-V4-Flash-Max DeepSeek	86.2	—	—	79.0%	88.1%	86.2%	—	91.6%
41	GPT-5.2	86.2	$1.75/1M	256K	80.0%	92.4%	—	—	—
42	GLM-5.1	86.2	—	200K	—	86.2%	—	—	—
43	Claude Opus 4.6 Anthropic	86.1	—	1M	80.8%	91.3%	—	—	—
44	Sarvam-30B	86.1	—	—	—	—	80.0%	92.1%	—
45	ERNIE 5.0	86.0	—	—	—	85.0%	87.0%	—	—
46	Qwen2 72B Instruct Qwen	86.0	—	131K	—	—	—	86.0%	—
47	Qwen3.6 Plus Alibaba	85.9	—	—	78.8%	90.4%	88.5%	—	—
48	Grok-2 mini	85.7	—	—	—	—	—	85.7%	—
49	GPT-5.5 Instant OpenAI	85.6	—	—	—	85.6%	—	—	—
50	Gemma 3 12B Google	85.4	—	128K	—	—	—	85.4%	—

How this table works

Each column links to a public benchmark leaderboard. The Score column is the average of normalized benchmark results for that model in this category (0–100 scale). Models ranked higher appear on more coding-related evaluations with stronger scores — similar in spirit to llm-stats, but we do not yet include live coding-arena TrueSkill or API latency columns from their live product.

Coding arenas on AICompare list arena types; full Elo tables will ship when we connect Supabase or llm-stats API refresh.

Looking for SaaS tools? Browse categories or compare tools.