Évaluer les LLM, un défi : le cas Hugging Face

Après un an, Hugging Face a revu les fondements de son leaderboard LLM. Quels en sont les tenants et les aboutissants ?

Publié par Clément Bohic le 27 juin 2024 | Mis à jour le 1 juil. 2024 à 16:50

Lecture
5 min

Imprimer

ARC, HellaSwag et MMLU, encore pertinents pour évaluer des LLM ? Hugging Face suggère que non.

L'éditeur considère que ces trois benchmarks sont arrivés à saturation. En d'autres termes, ils sont devenus « trop simples », certains modèles atteignant le niveau de performance de l'humain.

Dans ce contexte, Hugging Face a revu les fondements de son leaderboard des LLM. D'autres éléments l'y ont poussé. Parmi eux, des modèles montrant des signes de contamination. C'est-à-dire semblant avoir été (sur)entraînés sur des données contenues dans des benchmarks ou sur des données très proches. Un phénomène constaté en particulier sur TruthfulQA et GSM8K.
Ce dernier présentait par ailleurs un facteur désavantageant pour beaucoup de LLM verbeux : l'emploi d'un token spécifique (:) pour marquer la fin des tâches de génération.

Renouvellement complet des benchmarks...

La version initiale du leaderboard reposait sur :

- ARC (AI2 Reasoning Challenge ; questions de sciences niveau primaire)
- HellaSwag (évaluation du sens commun par la complétion d'énoncés)
- MMLU (Massive Multi-Task Language Understanding ; test de connaissances sur 57 domaines)
- TruthfulQA (évaluation de la justesse des modèles)
- WinoGrande (évaluation du sens commun axée sur l'attribution de pronoms)
- GSM8k (problèmes de maths niveau primaire)

La v2 ne conserve aucun de ces benchmarks. Elle s'appuie sur :

- MMLU-Pro
Cette adaptation de MMLU conserve le format QCM, mais propose 10 réponses par question au lieu de 4. Il exige davantage de raisonnement et supprime le bruit découvert dans le benchmark d'origine (impossibilité de répondre à certaines questions).

- GPQA (Google-Proof Q&A Benchmark)
Des experts (postdocs en bio, physique, chimie, etc.) ont préparé ce benchmark de test de connaissances. Le dataset n'est pas en accès libre, ce qui est censé réduire les risques de contamination des modèles.

- MuSR (Multistep Soft Reasoning)
Ce benchmark contient des problèmes d'environ 1000 mots générés par algorithme. Ils sont de type enquête criminelle, localisation d'objets et optimisation de travail d'équipe. Pour les résoudre, les modèles doivent associer raisonnement et traitement de long contexte.

- MATH (Mathematic Aptitude Test of Heuristics)
Hugging Face n'a retenu que le sous-ensemble le plus difficile de ce dataset de problèmes de maths niveau lycée.

- IFEval (Instruction-Following Evaluation)
Ce benchmark évalue la capacité à suivre des instructions explicites. On s'intéresse moins au contenu généré qu'à l'adhérence aux consignes de formatage.

- BBH (BIG-Bench Hard)
Il s'agit d'un sous-ensemble de 23 tâches issues de BIG-Bench. Au menu, raisonnement arithmétique et algorithmique, compréhension du langage et culture générale.

... et du scoring

Pourquoi cette sélection ? Hugging Face a pris en compte l'existence d'une révision des datasets par l'humain (MMLU-Pro, GPQA) et le niveau d'usage dans la sphère académique et/ou la communauté open source (BBH, IFEval, MATH). Il a aussi tenu compte de la fiabilité et de l'équité des indicateurs (codification claire du format sur MATH, post-traitement sur BBH pour extraire les réponses correctes...). Sur le volet contamination, au-delà de l'accès restreint à GPQA, la « jeunesse » de MuSR et MMLU-Pro a pesé dans la balance.

D'une version à l'autre, la méthode de scoring a changé. À l'origine, la note finale se basait sur la somme des scores pour tous les benchmarks. Désormais, elle utilise des scores normalisés par rapport à la baseline random. Illustration sur une question avec deux propositions dont une réponse juste : un modèle a une chance sur deux d'avoir bon en répondant au hasard. Et donc, par extrapolation, d'obtenir 50/100. Ce 50, normalisé, devient un 0.
Hugging Face donne l'exemple d'un modèle A qui obtiendrait un score brut de 52 sur cette tâche (donc à peine mieux, statistiquement, que s'il avait répondu au hasard) et de 0 sur une tâche générative. Avec une moyenne de 26, il serait considéré comme meilleur qu'un modèle B qui aurait obtenu un score « malchanceux » de 40 sur la première tâche et qui s'en serait tiré avec un 10 sur la deuxième. La normalisation leur attribue des scores respectifs de 1 et de 0 sur la première tâche, inversant la hiérarchie.

Un modèle chinois en tête du classement des LLM

Autre élément introduit avec la v2 du leaderboard LLM : un système de vote pour prioriser les évaluations. S'y ajoute une catégorie « maintainer's choice » mettant en avant des modèles sélectionnés par la communauté et l'équipe Hugging Face. En parallèle, le front-end est devenu plus rapide grâce au développement d'un composant Gradio qui charge les données côté client.

En première ligne dans la v1 du leaderboard, Qwen2-72B-Instruct le reste. Avec un score moyen global de 43,02, le modèle d'Alibaba Cloud est « un ton au-dessus des autres ». Essentiellement grâce à sa culture générale, ses performances en maths et ses capacités de raisonnement sur long contexte.

Deuxième du classement avec 36,67, Llama-3-70B-Instruct a une particularité : un score sur GPQA inférieur de 15 points par rapport à la version de base. L'affinage sur le suivi d'instructions a-t-il affecté ses connaissances ?... Un phénomène similaire s'observe sur MATH avec les versions chat de certains modèles.
Le format d'IFEval tend, au contraire, à favoriser les modèles chat et instruct. Sur MuSR, l'avantage est à ceux qui disposent d'une fenêtre de contexte d'au moins 10k.

Illustration principale © Quardia Inc. - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

#LLM

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Évaluer les LLM, un défi : le cas Hugging Face

Renouvellement complet des benchmarks...

... et du scoring

Un modèle chinois en tête du classement des LLM

La CNIL face aux limites du chiffrement homomorphe

Quelle infrastructure on-premise pour porter une stratégie IA ?

De l'UX à l'AX : penser les interfaces pour les agents IA

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

IA et copyright : la perspective d'une norme IETF réconciliatrice

S’abonner

Les stations de travail dédiées à votre métier

Future of Work – Transformer le support et [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Renouvellement complet des benchmarks...

... et du scoring

Un modèle chinois en tête du classement des LLM

S’abonner

Partager l'épisode