C'est quoi un benchmark pour un LLM ?

Quand un nouveau modèle de langage sort — que ce soit GPT-5, Claude Opus 4.6, Gemini 3 Pro ou Grok 4 — les entreprises qui les développent publient systématiquement des scores sur des benchmarks. Mais concrètement, de quoi parle-t-on ?

Un benchmark, c'est tout simplement un test standardisé que l'on fait passer à un modèle d'IA. L'idée est la même qu'un examen scolaire : on pose des questions, on note les réponses, et on compare les résultats entre candidats. Sauf qu'ici, les candidats sont des LLM, et les questions peuvent aller d'un simple QCM de culture générale jusqu'à la résolution de bugs dans du code informatique.

L'objectif est double : permettre aux chercheurs de mesurer les progrès réels de l'IA, et aider les entreprises (et le grand public) à comparer les modèles entre eux sur des critères objectifs. Car entre les annonces marketing et la réalité, il y a parfois un gouffre.

En 2026, on compte plus de 200 modèles évalués sur les principaux benchmarks, et au moins six grandes familles de tests font référence dans l'industrie. Voyons-les en détail.

Les benchmarks de connaissances générales

MMLU : le test de culture générale de l'IA

Le MMLU (Massive Multitask Language Understanding) est probablement le benchmark le plus connu. Créé en 2020 par le chercheur Dan Hendrycks, il propose environ 10 000 questions à choix multiples réparties sur 57 matières : histoire, droit, médecine, mathématiques, informatique, physique, philosophie…

Le principe est simple : on soumet les questions au modèle et on mesure son pourcentage de bonnes réponses. Les questions vont du niveau lycée au niveau doctorat.

Pendant des années, MMLU a été LA référence pour évaluer l'intelligence générale d'un LLM. Problème : les meilleurs modèles dépassent désormais les 90 % de réussite, ce qui rend le test trop facile pour distinguer les modèles les plus avancés. On parle alors de saturation du benchmark.

MMLU-Pro : la version durcie

Pour pallier cette saturation, une version améliorée a vu le jour : MMLU-Pro. Ce test reprend le même concept, mais avec des questions plus difficiles, axées davantage sur le raisonnement que sur la simple mémorisation. Il propose aussi 10 choix de réponses au lieu de 4, ce qui réduit la part de chance.

MMLU-Pro est aujourd'hui l'un des rares benchmarks de connaissances qui permet encore de réellement départager les modèles les plus performants, qu'il s'agisse de GPT-5, Claude Opus 4.6 ou Gemini 3 Pro.

GPQA Diamond : le quiz de niveau doctorat

Le GPQA (Graduate-level Google-Proof Q&A) pousse le concept encore plus loin. Ce test a été conçu par des experts en biologie, physique et chimie pour être « à l'épreuve de Google » : même en cherchant sur internet, un non-spécialiste n'obtient que 34 % de bonnes réponses (pour un score aléatoire de 25 %).

La version GPQA Diamond contient les 198 questions les plus difficiles du lot. Seuls des chercheurs titulaires d'un doctorat dans leur domaine atteignent environ 65 % de réussite. En février 2026, les meilleurs LLM approchent les 90 %, ce qui montre à quel point les progrès sont rapides — mais aussi que même ce test commence à être « rattrapé ».

Les benchmarks de raisonnement et de mathématiques

GSM8K : les maths de niveau collège

GSM8K (Grade School Math 8K) est un jeu de 8 500 problèmes de mathématiques de niveau scolaire. Il teste la capacité du modèle à raisonner étape par étape pour résoudre des problèmes du quotidien : pourcentages, calculs de distance, fractions, etc.

Ce benchmark a été très utile pour mesurer les progrès du raisonnement en chaîne (chain of thought), c'est-à-dire la faculté d'un modèle à décomposer un problème. Mais là encore, les modèles récents scorent désormais au-delà de 95 %, rendant le test peu discriminant.

MATH et AIME : les mathématiques de compétition

Pour les vrais défis mathématiques, on passe à MATH, un benchmark composé de 500 problèmes de niveau compétition (algèbre, géométrie, théorie des nombres…). Les questions demandent des raisonnements longs, de l'abstraction et parfois de la créativité.

Le test AIME 2025 (American Invitational Mathematics Examination) va encore plus loin avec 30 problèmes de niveau olympiade. C'est un excellent indicateur de la capacité d'un modèle à mener un raisonnement mathématique profond, bien au-delà de la simple application de formules.

Les benchmarks de code et d'ingénierie logicielle

HumanEval : écrire une fonction simple

HumanEval, créé par OpenAI en 2021, a été le premier benchmark majeur pour le code. Il contient 164 problèmes de programmation où le modèle doit écrire une fonction complète à partir d'une description. Le score est mesuré en Pass@1 (la première tentative doit passer tous les tests unitaires).

C'est un bon point de départ, mais HumanEval ne teste que des fonctions isolées — ce qui est très loin de la réalité du développement logiciel.

SWE-bench Verified : résoudre de vrais bugs

SWE-bench (Software Engineering Bench) a changé la donne en 2023. Ce benchmark ne demande pas au modèle d'écrire du code à partir de zéro, mais de résoudre de vrais bugs issus de dépôts GitHub populaires (Django, Flask, scikit-learn…).

Concrètement, le modèle reçoit la description d'un problème (un « issue ») et doit produire un patch — une modification du code — qui corrige le bug et passe la suite de tests existante. Cela exige de comprendre une base de code entière, de naviguer entre plusieurs fichiers, et de proposer une correction cohérente.

La version SWE-bench Verified est un sous-ensemble de 500 problèmes validés par des humains. Début 2026, les meilleurs modèles atteignent plus de 70 % de résolution, ce qui est remarquable mais pose aussi la question de la contamination des données (le modèle a-t-il vu la solution pendant son entraînement ?).

Pour adresser ces limites, SWE-bench Pro a été introduit avec des problèmes issus de dépôts privés et commerciaux, où les scores chutent en dessous de 25 %.

LiveCodeBench et Terminal-Bench : le code en continu

LiveCodeBench résout le problème de la contamination en utilisant des problèmes constamment renouvelés, tirés de compétitions de programmation en cours (LeetCode, AtCoder, CodeForces). Le modèle ne peut pas avoir vu les questions à l'avance.

Terminal-Bench évalue quant à lui les capacités « agentiques » (c'est-à-dire la capacité du modèle à agir de façon autonome) : le modèle doit accomplir des tâches complètes dans un environnement terminal, incluant administration système, traitement de données et ingénierie logicielle.

Les classements communautaires et arènes

LMArena (Chatbot Arena) : le vote du public

Tous les benchmarks précédents sont des tests automatisés. LMArena, anciennement Chatbot Arena, prend une approche radicalement différente : ce sont les utilisateurs qui votent.

Le principe : vous posez une question, deux modèles anonymes y répondent côte à côte, et vous choisissez la meilleure réponse. Avec plus de 6 millions de votes collectés, la plateforme calcule un score Elo (le même système de classement qu'aux échecs) pour chaque modèle.

Ce classement reflète les préférences humaines réelles, ce qui en fait un complément précieux aux benchmarks automatiques. Il capture des dimensions difficiles à quantifier : le naturel de la réponse, la pertinence, le ton, la capacité à suivre des instructions complexes.

En revanche, préférence ne veut pas dire vérité. Un modèle peut produire une réponse séduisante mais factuellement fausse, et quand même remporter le vote.

Open LLM Leaderboard de Hugging Face

Hébergé par Hugging Face, ce classement se concentre sur les modèles open-source (ou plutôt « open-weight », c'est-à-dire dont les poids sont publiquement disponibles). Il exécute une batterie de tests standardisés — dont GPQA, MATH et MMLU-Pro — et normalise les résultats pour faciliter la comparaison.

La version 2, lancée en 2024, utilise des benchmarks plus exigeants car les modèles avaient saturé les tests originaux. On y retrouve des modèles comme Qwen3, Llama 3.3 70B et DeepSeek V3, qui rivalisent parfois avec les modèles propriétaires.

Les benchmarks « ultime » : Humanity's Last Exam et ARC-AGI

Humanity's Last Exam : le dernier examen de l'humanité

Quand les modèles dépassent 90 % sur presque tous les tests classiques, il faut des examens plus difficiles. C'est exactement la mission de Humanity's Last Exam (HLE), lancé début 2025 par le Center for AI Safety et Scale AI.

HLE rassemble 2 500 questions extrêmement difficiles créées par près de 1 000 experts issus de 500 institutions dans plus de 50 pays. Mathématiques, physique, chimie, sciences humaines… Les questions sont conçues pour être impossibles à résoudre par une simple recherche Google. Chaque question a été filtrée : si un modèle d'IA arrivait à y répondre, elle était retirée du lot.

Résultat ? Mi-2025, les meilleurs modèles plafonnaient autour de 25 % de réussite. En février 2026, les progrès sont nets — Gemini 3 Deep Think revendique par exemple des résultats nettement supérieurs — mais HLE reste le benchmark le plus difficile du marché.

ARC-AGI : tester le raisonnement abstrait

ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) mesure une tout autre dimension : la capacité d'un modèle à résoudre des puzzles visuels abstraits qu'il n'a jamais vus. L'idée est de tester l'intelligence « fluide », c'est-à-dire l'aptitude à raisonner face à une situation entièrement nouvelle, sans s'appuyer sur des connaissances mémorisées.

ARC-AGI-2, la version la plus récente, reste très difficile pour les LLM actuels, même si les progrès récents sont encourageants.

Les limites des benchmarks : pourquoi rester prudent

Les benchmarks sont des outils précieux, mais ils ont des défauts importants qu'il faut garder en tête.

  • La saturation : quand tous les meilleurs modèles scorent au-dessus de 90 % sur un test (comme c'est le cas pour MMLU ou HumanEval), le benchmark ne permet plus de les différencier. Il faut alors en créer de plus difficiles, dans une course sans fin entre modèles et évaluations.
  • La contamination des données : les LLM sont entraînés sur d'énormes volumes de texte issus d'internet. Or les questions de benchmarks publics se retrouvent souvent dans ces données d'entraînement. Le modèle ne raisonne pas vraiment : il « se souvient » de la réponse. Des études ont montré des baisses de performance allant jusqu'à 13 % quand on soumet aux modèles des questions reformulées qu'ils n'ont pas pu mémoriser.
  • Le décalage avec la réalité : un score élevé sur un benchmark ne garantit pas que le modèle sera performant sur votre cas d'usage. Les benchmarks testent des compétences génériques, pas la capacité à gérer la terminologie métier d'une entreprise, ses données spécifiques ou ses workflows.
  • L'optimisation ciblée : certains éditeurs optimisent leurs modèles spécifiquement pour exceller sur les benchmarks les plus médiatisés — parfois au détriment de la performance réelle. C'est ce qu'on appelle le « benchmark gaming ».

Des benchmarks de nouvelle génération tentent de résoudre ces problèmes. LiveBench renouvelle ses questions chaque mois. LiveCodeBench tire ses problèmes de compétitions en cours. HLE a été explicitement conçu pour être résistant à la contamination. Mais aucune solution n'est parfaite.

Comment lire un benchmark : nos conseils

Face à cette jungle de tests et de scores, voici quelques repères pour y voir plus clair :

  • Ne vous fiez jamais à un seul benchmark : un modèle peut exceller en mathématiques et être médiocre en code, ou inversement. Regardez plusieurs benchmarks qui couvrent des compétences différentes.
  • Vérifiez la source : les scores publiés par l'éditeur du modèle lui-même sont à prendre avec précaution. Préférez les évaluations indépendantes (Artificial Analysis, Hugging Face Open LLM Leaderboard, LMArena).
  • Privilégiez les benchmarks récents et non saturés : MMLU-Pro, GPQA Diamond, SWE-bench Verified, Humanity's Last Exam et LiveCodeBench sont aujourd'hui plus parlants que les anciens tests comme MMLU ou HumanEval.
  • Testez sur vos propres cas d'usage : rien ne remplace un test avec vos données réelles, vos prompts et vos besoins métier. Les benchmarks orientent le choix, mais c'est le terrain qui tranche.
  • Attention au « raisonnement illusoire » : un modèle peut obtenir un bon score en reconnaissant des schémas dans les données plutôt qu'en raisonnant véritablement. Les benchmarks qui testent la robustesse face à des reformulations (comme MATH-P-Hard) sont précieux pour détecter ce phénomène.

Conclusion : un outil indispensable, mais pas suffisant

Les benchmarks des LLM jouent un rôle essentiel dans l'écosystème de l'IA. Ils permettent de mesurer les progrès, de comparer les modèles et de garder les éditeurs honnêtes face aux annonces marketing. Sans eux, choisir entre GPT-5, Claude Opus 4.6 ou Gemini 3 Pro serait une pure affaire de feeling.

Mais ils ne racontent qu'une partie de l'histoire. Un bon score MMLU ne garantit pas que le modèle sera pertinent pour votre activité. La contamination des données, la saturation des tests et les optimisations ciblées rappellent qu'il faut toujours croiser les sources et, surtout, tester par soi-même.

L'ère de l'IA avance vite, et les benchmarks courent pour suivre. En 2026, des tests comme Humanity's Last Exam ou SWE-bench Pro repoussent les limites — mais combien de temps avant qu'ils soient eux aussi saturés ?

Et vous, quel benchmark regardez-vous en premier quand vous comparez des LLM ? Dites-le nous en commentaire !