Les choix d'OpenAI pour GPT-4o mini
Un modèle GPT-4o mini rejoint le catalogue d’OpenAI. De la conception à l’évaluation, il a fait l’objet d’arbitrages.
MMLU, encore pertinent pour évaluer les LLM ?
Hugging Face, qui a récemment revu les fondements de son leaderboard, a choisi d’en écarter ce benchmark référent. Motif : il est devenu « trop simple », certains modèles atteignant le niveau de performance de l’humain. Parfois parce qu’ils ont été (sur)entraînés sur des données contenues dans ce benchmark ou sur des données très proches.
Du côté d’OpenAI, on s’appuie toujours sur MMLU. En tout cas pour vanter les performances de GPT-4o mini. Le « petit dernier » de la maison atteint 82 % sur ce benchmark. C’est un peu plus que Gemini Flash et Claude 3 Haiku.
OpenAI fait la comparaison avec ces mêmes modèles pour le raisonnement mathématique (87 % sur MGSM), le codage (87,2 % sur HumanEval) et le raisonnement multimodal (59,4 % sur MMMU). Le benchmark PyLLMs, entre autres, corrobore les indicateurs avancés. GPT-4o mini y apparaît un peu plus moins rapide que Claude 3 Haiku mais un peu plus précis… et surtout nettement moins cher.
GPT-4o mini, multimodal au minimum
En matière de tarification, on franchit effectivement un nouveau palier. Sur l’API, il en coûte 15 centimes par million de tokens en entrée (l’équivalent d’environ 2500 pages de texte) et 60 centimes en sortie. Soit environ 60 % de moins que GPT-3.5 Turbo… dont GPT-4o mini est le successeur désigné.
Ce pricing vaut pour la modalité texte. C’est pour le moment la seule que le modèle peut produire. Il accepte en revanche les images en input (modalité « vision »), au même prix que pour GPT-4o.
16k en sortie
Par rapport à GPT-3.5 Turbo, la fenêtre de contexte s’agrandit (128k contre 16k). La fenêtre d’output aussi (16k contre 4k). Et les connaissances vont jusqu’à octobre 2023 (vs septembre 2021).
GPT-4o mini est disponible sur les endpoints Assistants, Chat Completions et Batch. Il l’est aussi sur ChatGPT Free, Plus et Team, à la place de GPT-3.5. Sa disponibilité sur ChatGPT Enterprise interviendra la semaine prochaine. À terme, le modèle prend en charge les modalités texte, image, vidéo et audio en entrée comme en sortie, promet OpenAI. Le fine-tuning doit arriver « dans les prochains jours ».
Lire aussi : Tendance MLOps sur l'API OpenAI
On peut tester GPT-4o mini sur Azure OpenAI Studio, en accès anticipé dans le playground. Il y a des restrictions géographiques (ressources en zone West US3 ou East US) et de volumétrie (10 requêtes max par tranche de 5 minutes pour chaque abonnement). Les filtres de contenu sont activés et non modifiables.
À consulter en complément :
OpenAI livre les clés du cadrage de ses modèles
Illustration © sofirinaja – Adobe Stock
Sur le même thème
Voir tous les articles Data & IA