Les choix d’OpenAI pour GPT-4o mini

GPT-4o mini

Un modèle GPT-4o mini rejoint le catalogue d’OpenAI. De la conception à l’évaluation, il a fait l’objet d’arbitrages.

MMLU, encore pertinent pour évaluer les LLM ?

Hugging Face, qui a récemment revu les fondements de son leaderboard, a choisi d’en écarter ce benchmark référent. Motif : il est devenu « trop simple », certains modèles atteignant le niveau de performance de l’humain. Parfois parce qu’ils ont été (sur)entraînés sur des données contenues dans ce benchmark ou sur des données très proches.

Du côté d’OpenAI, on s’appuie toujours sur MMLU. En tout cas pour vanter les performances de GPT-4o mini. Le « petit dernier » de la maison atteint 82 % sur ce benchmark. C’est un peu plus que Gemini Flash et Claude 3 Haiku.

OpenAI fait la comparaison avec ces mêmes modèles pour le raisonnement mathématique (87 % sur MGSM), le codage (87,2 % sur HumanEval) et le raisonnement multimodal (59,4 % sur MMMU). Le benchmark PyLLMs, entre autres, corrobore les indicateurs avancés. GPT-4o mini y apparaît un peu plus moins rapide que Claude 3 Haiku mais un peu plus précis… et surtout nettement moins cher.

GPT-4o mini, multimodal au minimum

En matière de tarification, on franchit effectivement un nouveau palier. Sur l’API, il en coûte 15 centimes par million de tokens en entrée (l’équivalent d’environ 2500 pages de texte) et 60 centimes en sortie. Soit environ 60 % de moins que GPT-3.5 Turbo… dont GPT-4o mini est le successeur désigné.

Ce pricing vaut pour la modalité texte. C’est pour le moment la seule que le modèle peut produire. Il accepte en revanche les images en input (modalité « vision »), au même prix que pour GPT-4o.

16k en sortie

Par rapport à GPT-3.5 Turbo, la fenêtre de contexte s’agrandit (128k contre 16k). La fenêtre d’output aussi (16k contre 4k). Et les connaissances vont jusqu’à octobre 2023 (vs septembre 2021).

GPT-4o mini est disponible sur les endpoints Assistants, Chat Completions et Batch. Il l’est aussi sur ChatGPT Free, Plus et Team, à la place de GPT-3.5. Sa disponibilité sur ChatGPT Enterprise interviendra la semaine prochaine. À terme, le modèle prend en charge les modalités texte, image, vidéo et audio en entrée comme en sortie, promet OpenAI. Le fine-tuning doit arriver « dans les prochains jours ».

On peut tester GPT-4o mini sur Azure OpenAI Studio, en accès anticipé dans le playground. Il y a des restrictions géographiques (ressources en zone West US3 ou East US) et de volumétrie (10 requêtes max par tranche de 5 minutes pour chaque abonnement). Les filtres de contenu sont activés et non modifiables.

À consulter en complément :

OpenAI livre les clés du cadrage de ses modèles

Illustration © sofirinaja – Adobe Stock