MMLU, encore pertinent pour évaluer les LLM ?
Hugging Face, qui a récemment revu les fondements de son leaderboard, a choisi d’en écarter ce benchmark référent. Motif : il est devenu « trop simple », certains modèles atteignant le niveau de performance de l’humain. Parfois parce qu’ils ont été (sur)entraînés sur des données contenues dans ce benchmark ou sur des données très proches.
Du côté d’OpenAI, on s’appuie toujours sur MMLU. En tout cas pour vanter les performances de GPT-4o mini. Le « petit dernier » de la maison atteint 82 % sur ce benchmark. C’est un peu plus que Gemini Flash et Claude 3 Haiku.
OpenAI fait la comparaison avec ces mêmes modèles pour le raisonnement mathématique (87 % sur MGSM), le codage (87,2 % sur HumanEval) et le raisonnement multimodal (59,4 % sur MMMU). Le benchmark PyLLMs, entre autres, corrobore les indicateurs avancés. GPT-4o mini y apparaît un peu plus moins rapide que Claude 3 Haiku mais un peu plus précis… et surtout nettement moins cher.
En matière de tarification, on franchit effectivement un nouveau palier. Sur l’API, il en coûte 15 centimes par million de tokens en entrée (l’équivalent d’environ 2500 pages de texte) et 60 centimes en sortie. Soit environ 60 % de moins que GPT-3.5 Turbo… dont GPT-4o mini est le successeur désigné.
Ce pricing vaut pour la modalité texte. C’est pour le moment la seule que le modèle peut produire. Il accepte en revanche les images en input (modalité « vision »), au même prix que pour GPT-4o.
Par rapport à GPT-3.5 Turbo, la fenêtre de contexte s’agrandit (128k contre 16k). La fenêtre d’output aussi (16k contre 4k). Et les connaissances vont jusqu’à octobre 2023 (vs septembre 2021).
GPT-4o mini est disponible sur les endpoints Assistants, Chat Completions et Batch. Il l’est aussi sur ChatGPT Free, Plus et Team, à la place de GPT-3.5. Sa disponibilité sur ChatGPT Enterprise interviendra la semaine prochaine. À terme, le modèle prend en charge les modalités texte, image, vidéo et audio en entrée comme en sortie, promet OpenAI. Le fine-tuning doit arriver « dans les prochains jours ».
On peut tester GPT-4o mini sur Azure OpenAI Studio, en accès anticipé dans le playground. Il y a des restrictions géographiques (ressources en zone West US3 ou East US) et de volumétrie (10 requêtes max par tranche de 5 minutes pour chaque abonnement). Les filtres de contenu sont activés et non modifiables.
À consulter en complément :
OpenAI livre les clés du cadrage de ses modèles
Illustration © sofirinaja – Adobe Stock
La Cour des comptes appelle à formaliser et à professionnaliser certains aspects du RIE, tout…
La Cour des comptes attire l'attention sur le risque d'affaiblissement d'Etalab, privé, ces dernières années,…
Missions historiques de la Dinum, l'ouverture des données publiques et la promotion des logiciels libres…
Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…
L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…
Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…