Les choix d'OpenAI pour GPT-4o mini

Un modèle GPT-4o mini rejoint le catalogue d’OpenAI. De la conception à l’évaluation, il a fait l’objet d’arbitrages.

Publié par Clément Bohic le 19 juil. 2024 | Mis à jour le 23 juil. 2024 à 11:54

Lecture
3 min

Imprimer

MMLU, encore pertinent pour évaluer les LLM ?

Hugging Face, qui a récemment revu les fondements de son leaderboard, a choisi d’en écarter ce benchmark référent. Motif : il est devenu « trop simple », certains modèles atteignant le niveau de performance de l’humain. Parfois parce qu’ils ont été (sur)entraînés sur des données contenues dans ce benchmark ou sur des données très proches.

Du côté d’OpenAI, on s’appuie toujours sur MMLU. En tout cas pour vanter les performances de GPT-4o mini. Le « petit dernier » de la maison atteint 82 % sur ce benchmark. C’est un peu plus que Gemini Flash et Claude 3 Haiku.

OpenAI fait la comparaison avec ces mêmes modèles pour le raisonnement mathématique (87 % sur MGSM), le codage (87,2 % sur HumanEval) et le raisonnement multimodal (59,4 % sur MMMU). Le benchmark PyLLMs, entre autres, corrobore les indicateurs avancés. GPT-4o mini y apparaît un peu plus moins rapide que Claude 3 Haiku mais un peu plus précis… et surtout nettement moins cher.

GPT-4o mini, multimodal au minimum

En matière de tarification, on franchit effectivement un nouveau palier. Sur l’API, il en coûte 15 centimes par million de tokens en entrée (l’équivalent d’environ 2500 pages de texte) et 60 centimes en sortie. Soit environ 60 % de moins que GPT-3.5 Turbo… dont GPT-4o mini est le successeur désigné.

Ce pricing vaut pour la modalité texte. C’est pour le moment la seule que le modèle peut produire. Il accepte en revanche les images en input (modalité « vision »), au même prix que pour GPT-4o.

16k en sortie

Par rapport à GPT-3.5 Turbo, la fenêtre de contexte s’agrandit (128k contre 16k). La fenêtre d’output aussi (16k contre 4k). Et les connaissances vont jusqu’à octobre 2023 (vs septembre 2021).

GPT-4o mini est disponible sur les endpoints Assistants, Chat Completions et Batch. Il l’est aussi sur ChatGPT Free, Plus et Team, à la place de GPT-3.5. Sa disponibilité sur ChatGPT Enterprise interviendra la semaine prochaine. À terme, le modèle prend en charge les modalités texte, image, vidéo et audio en entrée comme en sortie, promet OpenAI. Le fine-tuning doit arriver « dans les prochains jours ».

On peut tester GPT-4o mini sur Azure OpenAI Studio, en accès anticipé dans le playground. Il y a des restrictions géographiques (ressources en zone West US3 ou East US) et de volumétrie (10 requêtes max par tranche de 5 minutes pour chaque abonnement). Les filtres de contenu sont activés et non modifiables.

À consulter en complément :

OpenAI livre les clés du cadrage de ses modèles

Illustration © sofirinaja – Adobe Stock

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Les choix d'OpenAI pour GPT-4o mini

GPT-4o mini, multimodal au minimum

16k en sortie

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

GPT-4o mini, multimodal au minimum

16k en sortie

S’abonner

Partager l'épisode