Évaluer les LLM, un défi : le cas Hugging Face

Hugging Face LLM leaderboard

Après un an, Hugging Face a revu les fondements de son leaderboard LLM. Quels en sont les tenants et les aboutissants ?

ARC, HellaSwag et MMLU, encore pertinents pour évaluer des LLM ? Hugging Face suggère que non.

L’éditeur considère que ces trois benchmarks sont arrivés à saturation. En d’autres termes, ils sont devenus « trop simples », certains modèles atteignant le niveau de performance de l’humain.

Dans ce contexte, Hugging Face a revu les fondements de son leaderboard des LLM. D’autres éléments l’y ont poussé. Parmi eux, des modèles montrant des signes de contamination. C’est-à-dire semblant avoir été (sur)entraînés sur des données contenues dans des benchmarks ou sur des données très proches. Un phénomène constaté en particulier sur TruthfulQA et GSM8K.
Ce dernier présentait par ailleurs un facteur désavantageant pour beaucoup de LLM verbeux : l’emploi d’un token spécifique (:) pour marquer la fin des tâches de génération.

Renouvellement complet des benchmarks…

La version initiale du leaderboard reposait sur :

– ARC (AI2 Reasoning Challenge ; questions de sciences niveau primaire)
– HellaSwag (évaluation du sens commun par la complétion d’énoncés)
– MMLU (Massive Multi-Task Language Understanding ; test de connaissances sur 57 domaines)
– TruthfulQA (évaluation de la justesse des modèles)
– WinoGrande (évaluation du sens commun axée sur l’attribution de pronoms)
– GSM8k (problèmes de maths niveau primaire)

La v2 ne conserve aucun de ces benchmarks. Elle s’appuie sur :

– MMLU-Pro
Cette adaptation de MMLU conserve le format QCM, mais propose 10 réponses par question au lieu de 4. Il exige davantage de raisonnement et supprime le bruit découvert dans le benchmark d’origine (impossibilité de répondre à certaines questions).

– GPQA (Google-Proof Q&A Benchmark)
Des experts (postdocs en bio, physique, chimie, etc.) ont préparé ce benchmark de test de connaissances. Le dataset n’est pas en accès libre, ce qui est censé réduire les risques de contamination des modèles.

– MuSR (Multistep Soft Reasoning)
Ce benchmark contient des problèmes d’environ 1000 mots générés par algorithme. Ils sont de type enquête criminelle, localisation d’objets et optimisation de travail d’équipe. Pour les résoudre, les modèles doivent associer raisonnement et traitement de long contexte.

– MATH (Mathematic Aptitude Test of Heuristics)
Hugging Face n’a retenu que le sous-ensemble le plus difficile de ce dataset de problèmes de maths niveau lycée.

– IFEval (Instruction-Following Evaluation)
Ce benchmark évalue la capacité à suivre des instructions explicites. On s’intéresse moins au contenu généré qu’à l’adhérence aux consignes de formatage.

– BBH (BIG-Bench Hard)
Il s’agit d’un sous-ensemble de 23 tâches issues de BIG-Bench. Au menu, raisonnement arithmétique et algorithmique, compréhension du langage et culture générale.

… et du scoring

Pourquoi cette sélection ? Hugging Face a pris en compte l’existence d’une révision des datasets par l’humain (MMLU-Pro, GPQA) et le niveau d’usage dans la sphère académique et/ou la communauté open source (BBH, IFEval, MATH). Il a aussi tenu compte de la fiabilité et de l’équité des indicateurs (codification claire du format sur MATH, post-traitement sur BBH pour extraire les réponses correctes…). Sur le volet contamination, au-delà de l’accès restreint à GPQA, la « jeunesse » de MuSR et MMLU-Pro a pesé dans la balance.

D’une version à l’autre, la méthode de scoring a changé. À l’origine, la note finale se basait sur la somme des scores pour tous les benchmarks. Désormais, elle utilise des scores normalisés par rapport à la baseline random. Illustration sur une question avec deux propositions dont une réponse juste : un modèle a une chance sur deux d’avoir bon en répondant au hasard. Et donc, par extrapolation, d’obtenir 50/100. Ce 50, normalisé, devient un 0.
Hugging Face donne l’exemple d’un modèle A qui obtiendrait un score brut de 52 sur cette tâche (donc à peine mieux, statistiquement, que s’il avait répondu au hasard) et de 0 sur une tâche générative. Avec une moyenne de 26, il serait considéré comme meilleur qu’un modèle B qui aurait obtenu un score « malchanceux » de 40 sur la première tâche et qui s’en serait tiré avec un 10 sur la deuxième. La normalisation leur attribue des scores respectifs de 1 et de 0 sur la première tâche, inversant la hiérarchie.

scores normalisés
En orange, les scores moyens bruts. En rouge, les scores moyens normalisés.

Un modèle chinois en tête du classement des LLM

Autre élément introduit avec la v2 du leaderboard LLM : un système de vote pour prioriser les évaluations. S’y ajoute une catégorie « maintainer’s choice » mettant en avant des modèles sélectionnés par la communauté et l’équipe Hugging Face. En parallèle, le front-end est devenu plus rapide grâce au développement d’un composant Gradio qui charge les données côté client.

En première ligne dans la v1 du leaderboard, Qwen2-72B-Instruct le reste. Avec un score moyen global de 43,02, le modèle d’Alibaba Cloud est « un ton au-dessus des autres ». Essentiellement grâce à sa culture générale, ses performances en maths et ses capacités de raisonnement sur long contexte.

nouveau classement LLM

Deuxième du classement avec 36,67, Llama-3-70B-Instruct a une particularité : un score sur GPQA inférieur de 15 points par rapport à la version de base. L’affinage sur le suivi d’instructions a-t-il affecté ses connaissances ?… Un phénomène similaire s’observe sur MATH avec les versions chat de certains modèles.
Le format d’IFEval tend, au contraire, à favoriser les modèles chat et instruct. Sur MuSR, l’avantage est à ceux qui disposent d’une fenêtre de contexte d’au moins 10k.

Illustration principale © Quardia Inc. – Adobe Stock