MCP Atlas Benchmark Leaderboard

MCP Atlas is a benchmark for evaluating AI models on scaled tool use capabilities, measuring how well models can coordinate and utilize multiple tools across complex multi-step tasks.

Leaderboard

Top 18 models on MCP Atlas Benchmark Leaderboard (scores from public evaluations).

1Gemini 3.5 Flash83.6% on MCP Atlas Benchmark Leaderboard
2Claude Opus 4.777.3% on MCP Atlas Benchmark Leaderboard
3GPT-5.575.3% on MCP Atlas Benchmark Leaderboard
4Qwen3.6 Plus74.1% on MCP Atlas Benchmark Leaderboard
5DeepSeek-V4-Pro-Max73.6% on MCP Atlas Benchmark Leaderboard
6GLM-5.171.8% on MCP Atlas Benchmark Leaderboard
7Gemini 3.1 Pro69.2% on MCP Atlas Benchmark Leaderboard
8DeepSeek-V4-Flash-Max69.0% on MCP Atlas Benchmark Leaderboard
9GLM-567.8% on MCP Atlas Benchmark Leaderboard
10GPT-5.467.2% on MCP Atlas Benchmark Leaderboard
11Qwen3.6-35B-A3B62.8% on MCP Atlas Benchmark Leaderboard
12Claude Opus 4.662.7% on MCP Atlas Benchmark Leaderboard
13Claude Opus 4.562.3% on MCP Atlas Benchmark Leaderboard
14Claude Sonnet 4.661.3% on MCP Atlas Benchmark Leaderboard
15GPT-5.260.6% on MCP Atlas Benchmark Leaderboard
16GPT-5.4 mini57.7% on MCP Atlas Benchmark Leaderboard
17Gemini 3 Flash57.4% on MCP Atlas Benchmark Leaderboard
18GPT-5.4 nano56.1% on MCP Atlas Benchmark Leaderboard

Rank	Model	Score	Lab
1	Gemini 3.5 Flash	83.6%	—
2	Claude Opus 4.7	77.3%	—
3	GPT-5.5	75.3%	—
4	Qwen3.6 Plus	74.1%	—
5	DeepSeek-V4-Pro-Max	73.6%	—
6	GLM-5.1	71.8%	—
7	Gemini 3.1 Pro	69.2%	—
8	DeepSeek-V4-Flash-Max	69.0%	—
9	GLM-5	67.8%	—
10	GPT-5.4	67.2%	—
11	Qwen3.6-35B-A3B	62.8%	—
12	Claude Opus 4.6	62.7%	—
13	Claude Opus 4.5	62.3%	—
14	Claude Sonnet 4.6	61.3%	—
15	GPT-5.2	60.6%	—
16	GPT-5.4 mini	57.7%	—
17	Gemini 3 Flash	57.4%	—
18	GPT-5.4 nano	56.1%	—

Models tracked

Models with mcp-atlas in their evaluation profile.

No models linked yet.

View task leaderboards →