SWE-Bench Pro Benchmark Leaderboard

SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving.

Leaderboard

Top 21 models on SWE-Bench Pro Benchmark Leaderboard (scores from public evaluations).

1Claude Mythos Preview77.8% on SWE-Bench Pro Benchmark Leaderboard
2Claude Opus 4.764.3% on SWE-Bench Pro Benchmark Leaderboard
3GPT-5.558.6% on SWE-Bench Pro Benchmark Leaderboard
3Kimi K2.658.6% on SWE-Bench Pro Benchmark Leaderboard
5GLM-5.158.4% on SWE-Bench Pro Benchmark Leaderboard
6GPT-5.457.7% on SWE-Bench Pro Benchmark Leaderboard
7GPT-5.3 Codex56.8% on SWE-Bench Pro Benchmark Leaderboard
8Qwen3.6 Plus56.6% on SWE-Bench Pro Benchmark Leaderboard
9GPT-5.2 Codex56.4% on SWE-Bench Pro Benchmark Leaderboard
10MiniMax M2.756.2% on SWE-Bench Pro Benchmark Leaderboard
11MiniMax M2.555.4% on SWE-Bench Pro Benchmark Leaderboard
11DeepSeek-V4-Pro-Max55.4% on SWE-Bench Pro Benchmark Leaderboard
13Gemini 3.5 Flash55.1% on SWE-Bench Pro Benchmark Leaderboard
14GPT-5.4 mini54.4% on SWE-Bench Pro Benchmark Leaderboard
15Gemini 3.1 Pro54.2% on SWE-Bench Pro Benchmark Leaderboard
16Qwen3.6-27B53.5% on SWE-Bench Pro Benchmark Leaderboard
17DeepSeek-V4-Flash-Max52.6% on SWE-Bench Pro Benchmark Leaderboard
18GPT-5.4 nano52.4% on SWE-Bench Pro Benchmark Leaderboard
18Muse Spark52.4% on SWE-Bench Pro Benchmark Leaderboard
20Kimi K2.550.7% on SWE-Bench Pro Benchmark Leaderboard
21Qwen3.6-35B-A3B49.5% on SWE-Bench Pro Benchmark Leaderboard

Rank	Model	Score	Lab
1	Claude Mythos Preview	77.8%	—
2	Claude Opus 4.7	64.3%	—
3	GPT-5.5	58.6%	—
3	Kimi K2.6	58.6%	—
5	GLM-5.1	58.4%	—
6	GPT-5.4	57.7%	—
7	GPT-5.3 Codex	56.8%	—
8	Qwen3.6 Plus	56.6%	—
9	GPT-5.2 Codex	56.4%	—
10	MiniMax M2.7	56.2%	—
11	MiniMax M2.5	55.4%	—
11	DeepSeek-V4-Pro-Max	55.4%	—
13	Gemini 3.5 Flash	55.1%	—
14	GPT-5.4 mini	54.4%	—
15	Gemini 3.1 Pro	54.2%	—
16	Qwen3.6-27B	53.5%	—
17	DeepSeek-V4-Flash-Max	52.6%	—
18	GPT-5.4 nano	52.4%	—
18	Muse Spark	52.4%	—
20	Kimi K2.5	50.7%	—
21	Qwen3.6-35B-A3B	49.5%	—

Models tracked

Models with swe-bench-pro in their evaluation profile.

No models linked yet.

View task leaderboards →