Benchmarks d'IA : quelle confiance leur accorder ?
Le labo de recherche scientifique de l'UE a analysé la littérature critique au sujet des benchmarks d'IA. Voici quelques points saillants de sa synthèse.

Dans le domaine de l'IA, peut-on faire confiance aux benchmarks ?
Le laboratoire de recherche scientifique et technique de l'Union européenne a analysé la littérature critique à ce sujet. La synthèse qu'il vient de livrer se fonde sur une centaine d'études publiées ces dix dernières années (dont plus de la moitié en 2023-2024). Elle traite, en une dizaine de points, des problèmes liés à la conception des benchmarks et à leur mise en application, tout en abordant les enjeux d'ordre sociotechnique.
En toile de fond, l'influence grandissante ce ces benchmarks jusqu'au sein de la régulation. Ils irriguent, entre autres, plusieurs dispositions clés de l'AI Act. Par exemple, au niveau des exigences de précision, de robustesse et de cybersécurité applicables aux systèmes d'IA classés à haut risque (article 15(2)). Ou pour la caractérisation des modèles à usage général présentant un risque systémique (article 51(1)). Les benchmarks devraient aussi jouer un rôle central dans l'implémentation du DSA (législation sur les services numériques). Les plates-formes qui y sont soumises doivent effectivement réaliser régulièrement des audits algorithmiques pour démontrer la sûreté et l'équité de leurs systèmes.
Ci-dessous, quelques-unes des conclusions du laboratoire, avec les principales sources associées. Pour des questions de lisibilité, nous ne les mentionnons qu'une fois chacune, même si elles étayent plusieurs constats.
Des problèmes dans la collecte des données et la documentation des datasets
Il est souvent difficile de déterminer précisément comment, quand et par qui sont faits les datasets. Cela compromet l'aptitude à utiliser les benchmarks d'une manière robuste et généralisable.
Des études ont partiellement lié le problème au fait que la communauté du machine learning tend à axer davantage ses travaux sur les modèles que sur les datasets. D'autres font le lien avec la réutilisation fréquente des datasets, phénomène qui complique la documentation de leurs limites. De même, les écarts terminologiques sont susceptibles de rendre le travail plus difficile.
Principales sources :
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards (Arzt et al., 2024)
- Bringing the People Back In: Contesting Benchmark Machine Learning Datasets (Denton et al., 2020)
- Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research (Koch et al, 2021)
- The social construction of datasets: On the practices, processes, and challenges of dataset creation for machine learning (Crawford et al., 2024)
- Raison d'être of the benchmark dataset: A Survey of Current Practices of Benchmark Dataset Sharing Platforms (Park et al., 2022)
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices (Reuel et al., 2024)
- Everyone wants to do the model work, not the data work: Data Cascades in High-Stakes AI (Sambasivan et al., 2021)
- Politics of data reuse in machine learning systems: Theorizing reuse entanglements (Thylstrup et al., 2022)
Un manque de soin dans l'élaboration des datasets peut mener des modèles à exploiter des excentricités et des "indices fallacieux". Illustration avec un modèle de classification d'images radiologiques. Il a prédit avec beaucoup de précision la présence de pneumothorax (effondrement du poumon), mais il identifiait en fait les drainages pleuraux, présents sur la majorité des images d'entraînement.
Principales sources :
- Shortcut Learning in Deep Neural Networks (Geirhos et al., 2020)
- Are We Learning Yet? A Meta Review of Evaluation Failures Across Machine Learning (Liao et al., 2021)
- Hidden Stratification Causes Clinically Meaningful Failures in Machine Learning for Medical Imaging (Oakden-Raynet et al., 2019)
- Data and its (dis)contents: A survey of dataset development and use in machine learning research (Paullada et al., 2021)
Que mesurent réellement les benchmarks ?
Beaucoup de benchmarks ne mesurent pas ce qu'ils prétendent mesurer. C'est particulièrement problématique quand ils sont censés rendre compte de capacités "générales" ou "universelles".
Ils sont également nombreux à ne pas définir clairement ce qu'ils disent mesurer. Témoin une étude axée sur StereoSet, CrosW-Pairs, WinoBias et Wino-Gender. Elle a conclu à l'absence de définition, dans ces benchmarks, de concepts culturellement complexes et contestés comme "stéréotype" et "langage offensant".
Principales sources :
- Benchmarking in Optimization: Best Practice and Open Issues (Bartz-Beielstein et al., 2020)
- Stereotyping Norwegian Salmon: An Inventory of Pitfalls in Fairness Benchmark Datasets (Blodgett et al., 2021)
- AI and the Everything in the Whole Wide World Benchmark (Raji et al., 2021)
Beaucoup de datasets sont inadéquats pour ce qu'ils sont censés évaluer. Des chercheurs ont, par exemple, identifié un manque de distinction entre les "erreurs" (wrongs) et les "dommages" (harms) algorithmiques, deux concepts qui ne se chevauchent pourtant pas nécessairement. D'autres se sont demandé si les datasets étaient vraiment des substituts raisonnables aux scénarios "réels" qu'ils sont censés refléter : est-il vraiment pertinent d'utiliser du contenu généré par des "travailleurs du clic" sur Amazon Mechanical Turk pour alimenter l'aspect éthique de benchmarks comme HellaSwag ?...
A également été constatée la tendance de benchmarks populaires axés sur la sûreté (ETHICS, MT-Bench, TruthfulQA...) à être fortement corrélés aux capacités des modèles amont. D'où un risque que l'amélioration de ces capacités soit présentée comme une avancée en matière de sûreté.
Principales sources :
- Algorithmic Harms and Algorithmic Wrongs (Diberardino et al., 2024)
- Everyone Is Judging AI by These Tests. But Experts Say They're Close to Meaningless (Keegan, 2024)
- Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? (Ren et al., 2024)
Contexte socioculturel et utilité pratique
La conception des benchmarks est profondément influencée par le contexte socioculturel. Il peut en découler la reproduction d'idées contestées (comme celle selon laquelle le passage à l'échelle peut compenser des données de faible qualité) comme le choix de valoriser un concept aux dépens d'un autre (universalité plutôt que contextualité, impartialité plutôt que positionnalité...).
Principales sources :
- Field-building and the epistemic culture of AI safety (Ahmed et al., 2024)
- Scalable Extraction of Training Data from (Production) Language Models (Nasr et al., 2023)
- AI as a Sport: On the Competitive Epistemologies of Benchmarking (Orr et al., 2024)
- Do Datasets Have Politics? Disciplinary Values in Computer Vision Dataset Development (Scheuermann et al., 2021)
La prise en compte de l'utilité pratique des benchmarks n'est pas systématique. Il est souvent difficile de déterminer qui les résultats sont vraiment censés intéresser et comment ils devraient être exploités. Le laboratoire de l'UE donne l'exemple d'une étude centrée sur des benchmarks cliniques : il s'est avéré que la plupart ne répondaient pas aux besoins des experts médicaux. Et qu'à l'inverse, il en manquait pour les tâches les plus demandées.
Une autre étude a montré une attention insuffisante quant à l'impact sociétal des systèmes de recommandation et à la manière de le mesurer. D'autres chercheurs estiment que l'absence de prise en compte de l'utilité pratique des benchmarks a favorisé la remontée, dans le haut des classements, de modèles énergivores et souffrant de biais.
Principales sources :
- Benchmark datasets driving artificialintelligence development fail to capture the needs of medical professionals (Blagec et al., 2023)
- Utility is in the Eye of the User: A Critique of NLP Leaderboards (Ethayarajh et al., 2021)
- Evaluation Gaps in Machine Learning Practice (Hutchinson et al., 2022)
- Rethinking Model Evaluation as Narrowing the Socio-Technical Gap (Liao et al., 2023)
- Mapping global dynamics of benchmark creation and saturation in artificial intelligence (Ott et al., 2022)
Un périmètre et une diversité parfois limités
Les modalités autres que le texte sont peu représentées dans les benchmarks. Peu d'entre eux touchent exhaustivement aux sujets de la privacy, du copyright et de l'interprétabilité.
Les communautés de tâches tendent à se concentrer sur de moins en moins de benchmarks, qui proviennent souvent des mêmes institutions. Souvent, les évaluations concernent quasi exclusivement le contenu en anglais. Et les minorités sont fréquemment sous-représentées dans les datasets sous-jacents.
Principales sources :
- Mapping global dynamics of benchmark creation and saturation in artificial intelligence (Guldimann et al., 2024)
- Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence (McIntosh et al., 2024)
- Gaps in the Safety Evaluation of Generative AI (Rauh et al., 2024)
- SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety (Röttger et al., 2024)
- Lazy Data Practices Harm Fairness Research (Simson et al., 2024)
- Sociotechnical Safety Evaluation of Generative AI Systems (Weidinger et al., 2023)
La plupart des benchmarks ne tiennent pas compte du contexte socioculturel de leur mise en oeuvre. Ils s'appuient sur une logique de test statique alors même que les résultats sont censés dépeindre des capacités globales.
Les formats de type QCM et dialogue tendent eux aussi à être statiques. Ils ne capturent en tout cas pas la "nature évolutive" des interactions entre l'humain et l'IA.
Souvent, les évaluations n'englobent pas différentes configurations d'un même modèle (graine, température...). En parallèle, il arrive que les audits ne prennent pas en considération, d'une part, les risques associés aux interactions entre systèmes d'IA ; de l'autre, les actions et les motivations humaines.
En outre, la plupart des benchmarks se concentrent sur la notion de réussite. Ils en disent peu, voire pas sur la manière dont les modèles font des erreurs. Un élément pourtant potentiellement crucial dans une perspective de sûreté.
Principales sources :
- AI auditing: The Broken Bus on the Road to AI Accountability (Birhane et al., 2024)
- A Survey on Evaluation of Large Language Models (Chang et al., 2023)
- Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation Practices for Generated Text (Gehrmann et al., 2023)
- Fairness and Abstraction in Sociotechnical Systems (Selbst et al., 2019)
Quand les benchmarks ont des attaches commerciales
Certains benchmarks sont profondément intégrés dans des stratégies marketing : ils sont le prisme à travers lequel des entreprises promeuvent leurs produits. Beaucoup proviennent de l'industrie et sont ainsi centrés sur des tâches à haut potentiel de rendement économique plutôt que sur des objectifs comme la sûreté et l'éthique.
De tels benchmarks ont contribué à l'émergence d'une culture de compétition dans la recherche en IA, de plus en plus vue comme un "sport". Les évaluations se sont professionnalisées, avec la montée en puissance de plates-formes comme Kaggle, qui en viennent à fonctionner comme des (infra)structures de pouvoir dans des domaines comme l'imagerie médicale.
Principales sources :
- The Politics of Testing Infrastructures for Generative AI (Grill et al., 2024)
- AI competitions as infrastructures of power in medical imaging (Luitse et al., 2024)
- Top LLMs in China and the U.S. Only 5 Months Apart: Kai-Fu Lee (Zhijia, 2024)
Trucages et détournements
Une des études analysées pointe la large disponibilité de guides destinés à obtenir de hauts scores sur des benchmarks. Une autre a démontré l'existence de modèles optimisés pour répondre aux questions à choix multiples, format fréquemment rencontré. Des chercheurs ont également prouvé que des modèles pouvaient simuler - volontairement ou non - un alignement sur des objectifs de sûreté ou d'éthique. Et la labo de l'UE de rappeler la loi de Goodhart, du nom de l'économiste qui l'a formulée dans les années 70 : quand une mesure devient un objectif, elle cesse d'être une bonne mesure.
Principales sources :
- When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards (Alzahrani et al., 2024)
- The Benchmark Lottery (Dehghani et al., 2021)
- Alignment faking in large language models (Greenblatt et al., 2024)
- 'Improving ratings': audit in the British University system (Strathern, 1997)
Si les benchmarks peuvent être détournés, c'est en partie parce que leurs utilisateurs fournissent rarement de quoi valider et reproduire leurs résultats. À ce propos, une étude a montré que sur 24 benchmarks de modèles de langage à l'état de l'art, seulement 4 fournissaient des scripts pour reproduire les résultats. Tout juste une dizaine avaient réalisé plusieurs évaluations ou communiqué le sens statistique de leurs résultats.
Principale source : Lessons from the Trenches on Reproducible Evaluation of Language Models (Biderman et al., 2024).
Il existe aussi un problème de contamination (ingestion des datasets de benchmarks pendant l'entraînement). Il en résulte des modèles performants sur des tâches qui figurent dans leur distribution mais peu capables de généraliser sur des tâches d'une difficulté similaire hors distribution. Une étude, en particulier, avait porté sur GPT-4 et le benchmark Codeforces. Elle avait pointé le fait que le modèle résolvait tous les problèmes faciles ajoutés avant le 5 septembre 2021, mais aucun de ceux introduits par après.
Le labo de l'UE mentionne également le phénomène dit "sandbagging". Ou comment les performances de modèles sont volontairement dégradées sur certaines évaluations, par exemple pour éviter d'être soumis à régulation.
Principales sources :
- The Death of the Static AI Benchmark (Besen, 2024)
- Data Contamination: From Memorization to Exploitation (Magar et al., 2022)
- Data Contamination Through the Lens of Time (Roberts et al., 2023)
- AI Sandbagging: Language Models can Strategically Underperform on Evaluations (van der Weij et al., 2024)
- Benchmark Data Contamination of Large Language Models: A Survey (Xu et al., 2024)
- Language model developers should report train-test overlap (Zhang et al., 2024)
La popularité des benchmarks, une loterie ?
Les benchmarks sont souvent introduits en parallèle de modèles ou de mises à jour de modèles. La popularité d'un modèle peut entraîner celle du benchmark, sans qu'il soit forcément le plus adapté. Ce fut partiellement le cas avec ImageNet, qui a décollé grâce au succès - inattendu - d'un défi organisé par l'université de Toronto. Idem pour l'image de Lena, qu'on trouve dans de nombreux benchmarks de vision par ordinateur. Il se dit qu'elle fut tirée des pages centrales d'un numéro de Playboy "au moment où il y en avait besoin", parce que quelqu'un avait sur lui un exemplaire du magazine.
Principales sources :
- On the genealogy of machine learning datasets: A critical history of ImageNet (Denton et al., 2021)
- Proxies: The Cultural Work of Standing In (Mulvin, 2021)
Dans le processus d'évaluation par les pairs, on met souvent de côté en quoi un bon score sur un benchmark constitue un progrès. Dans cet esprit, il est attendu des chercheurs qu'ils démontrent régulièrement des performances sur les benchmarks dominants, même si de plus spécifiques pourraient être plus appropriés. Chez Google Brain, on parle de "loterie des benchmarks", tant beaucoup d'autres facteurs que la supériorité algorithmique entrent en jeu.
La majorité des benchmarks influents n'ont fait l'objet que de prépublications non soumises à une rigoureuse évaluation par les pairs, remarque le labo scientifique de l'UE. Par ailleurs, un grand nombre d'articles introduisant des benchmarks sont axés sur les méthodes. Le contenu des datasets y est souvent considéré comme secondaire. Cela peut avoir des effets indésirables quand on applique lesdits benchmarks à des cas spécifiques.
Dans ce contexte, les benchmarks engendrent une forme de "dépendance au chemin emprunté" : ils renforcent certaines méthodologies de recherche. Plus généralement, ils favorisent une "monoculture scientifique guidée par les tâches" privilégiant les mécanismes d'évaluation immédiate, explicite, formelle, quantitative et facilement interprétable. Centrés, donc, sur quelques valeurs épistémiques clés aux dépens d'une vision plus large du progrès scientifique. Cette "étroitesse épistémique" a été corrélée à l'effacement, après le boom du deep learning il y a une dizaine d'années, de paradigmes comme les réseaux bayésiens et les machines à vecteurs de support.
Principales sources :
- It's COMPASlicated: The Messy Relationship between RAI Datasets and Algorithmic Fairness Benchmarks (Bao et al., 2022)
- Making Intelligence: Ethical Values in IQ and ML Benchmarks (Blili-Hamelin et al., 2023)
- From Protoscience to Epistemic Monoculture: How Benchmarking Set the Stage for the Deep Learning Revolution (Koch et al., 2024)
- Targeting the Benchmark: On Methodology in Current Natural Language Processing Research (Schlangen et al., 2020)
Quand les benchmarks saturent
Vu le rythme d'évolution des modèles d'IA, beaucoup de benchmarks deviennent vite obsolètes. On peut le dire en un certain sens pour HellaSwag, Lambada oou WinoGrande, tous conçus avant des avancées technologiques comme l'apprentissage en contexte.
Reflet de ce décalage : les modèles ont tendance à surperformer sur les benchmarks (phénomène de "saturation"). De surcroît, certans se révèlent compliqués à implémenter. Les évaluations peuvent ainsi durer des semaines, voire des mois, retardant d'autant la capacité à produire des résultats. Un véritable écueil vu la cadence de publication de modèles.
Des "inconnues imprévisibles"
Le labo scientifique de l'UE évoque des "inconnues imprévisibles", notamment au sens où il est fondamentalement difficile de prévoir les capacités émergentes des IA. Les benchmarks sont plus globalement contraints par les connaissances de leurs créateurs sur un nombre potentiellement infini de domaines et de tâches. Le risque : des approches généralistes ne répondant pas à des exigences sectorielles.
À cela s'ajoutent les vulnérabilités inconnues ou latentes qui n'aident pas à distinguer les modèles "effectivement sûrs" de ceux "apparemment sûrs mais en fait non". Exemple avec une étude de 2023 qui a montré qu'on pouvait pousser ChatGPT à régurgiter des données d'entraînement sensibles en lui demandent de répéter indéfiniment le mot "poème".
Il est, par ailleurs, difficile de prévoir comment des modèles répondront à des ajustements de type fine-tuning ou alignement sur des règles, ajoute le labo scientifique de l'UE.
Principales sources :
- Extracting Training Data from ChatGPT (Nasr et al., 2023)
- Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! (Qi et al., 2023)
Illustration générée par IA
Sur le même thème
Voir tous les articles Data & IA