LMArena ELO

Overall

Human preference ranking from blind comparisons.

Paper Dataset Eval Code

How to Run

Submit model to lmsys.org Arena for human evaluation (requires API endpoint)

Rank	Model	Provider	Parameters	Score
1	Gemini 3 Pro	Google	Unknown	1501
2	Grok 4.1	xAI	Unknown	1483
3	Claude Opus 4.5	Anthropic	Unknown	1480
4	GPT-5.2	OpenAI	Unknown	1475