GDPval-AA Benchmark Leaderboard

GDPval-AA is an evaluation of AI model performance on economically valuable knowledge work tasks across professional domains including finance, legal, and other sectors. Run independently by Artificial Analysis, it uses Elo scoring to rank models on real-world work task performance.

Leaderboard

Top 10 models on GDPval-AA Benchmark Leaderboard (scores from public evaluations).

1Gemini 3.5 Flash1656.00 on GDPval-AA Benchmark Leaderboard
2Claude Sonnet 4.61633.00 on GDPval-AA Benchmark Leaderboard
3Claude Opus 4.61606.00 on GDPval-AA Benchmark Leaderboard
4DeepSeek-V4-Pro-Max1554.00 on GDPval-AA Benchmark Leaderboard
5MiniMax M2.71494.00 on GDPval-AA Benchmark Leaderboard
6Muse Spark1444.00 on GDPval-AA Benchmark Leaderboard
7MiMo-V2-Pro1426.00 on GDPval-AA Benchmark Leaderboard
8MiMo-V2-Omni1410.00 on GDPval-AA Benchmark Leaderboard
9DeepSeek-V4-Flash-Max1395.00 on GDPval-AA Benchmark Leaderboard
10Gemini 3.1 Pro1317.00 on GDPval-AA Benchmark Leaderboard

Rank	Model	Score	Lab
1	Gemini 3.5 Flash	1656.00	—
2	Claude Sonnet 4.6	1633.00	—
3	Claude Opus 4.6	1606.00	—
4	DeepSeek-V4-Pro-Max	1554.00	—
5	MiniMax M2.7	1494.00	—
6	Muse Spark	1444.00	—
7	MiMo-V2-Pro	1426.00	—
8	MiMo-V2-Omni	1410.00	—
9	DeepSeek-V4-Flash-Max	1395.00	—
10	Gemini 3.1 Pro	1317.00	—

Models tracked

Models with gdpval-aa in their evaluation profile.

No models linked yet.

View task leaderboards →