OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?
Arrivé sur l'API OpenAI fin février, GPT-4.5 en sortira mi-juillet. Avec ses spécificités, il aura ouvert des pistes, mais son héritage pose question.

Un petit tour et puis s'en va.
Rendu disponible sur l'API OpenAI fin février, GPT-4.5 en sera retiré le 14 juillet. Il disparaîtra également de l'offre Azure OpenAI. Pour le moment, il n'est pas question de le supprimer de ChatGPT, où il est accessible sur les formules payantes.
One last note: we'll also begin deprecating GPT-4.5 Preview in the API today as GPT-4.1 offers improved or similar performance on many key capabilities at lower latency and cost. GPT-4.5 in the API will be turned off in three months, on July 14, to allow time to transition (and...
- OpenAI Developers (@OpenAIDevs) April 14, 2025
OpenAI n'avait pas caché que GPT-4.5 pourrait à tout moment être mis en retrait. Le modèle est d'ailleurs toujours resté en aperçu (research preview). Présenté comme un "autre type d'intelligence", il était censé bénéficier notamment à la planification agentique. Ainsi qu'aux applications qui exploreraient sa "créativité" et son "intelligence émotionnelle accrue" (on nous citait l'écriture, la communication, la formation et le brainstorming).
Les utilisateurs ont effectivement salué ces capacités. Tout comme, entre autres, la finesse de compréhension et d'expression de GPT-4.5, son bon sens, ses aptitudes au jugement et ses talents de négociation.
Ces éléments - qu'OpenAI promet de reconduire dans de futurs modèles - ont toutefois un prix. Sur l'API, GPT-4.5 est le plus onéreux des modèles après o1 pro. Il en coûte 75 $ par million de tokens texte en entrée (30 fois plus que GPT-4o) et 150 $ par million en sortie (15 fois plus).
GPT-4.1, un successeur plus classique
Le successeur de GPT-4.5 s'appelle GPT-4.1. OpenAI affirme que ses performances sont "similaires ou meilleures sur beaucoup de capaités-clés", pour un coût et une latence inférieurs.
Le modèle dispose d'une fenêtre de contexte d'un peu plus d'un million de tokens, pour une taille maximale d'output de 32k. C'est la même chose pour ses déclinaisons mini et nano. Tous trois sont multimodaux en entrée (texte + images), mais pas en sortie.
GPT-4.1 est disponible sur les endpoints Chat Completions, Responses, Assistants, Batch et Fine-tuning. Il prend en charge le streaming, l'appel de fonctions, la distillation, les outputs structurés et les outputs prédits (accélération des réponses sur Chat Completions lorsque beaucoup de tokens sont connus ; par exemple lorsqu'on apporte peu de modifications à un input).
GPT-4.1 mini est accessible sur les mêmes endpoints. GPT-4.1 nano aussi, fine-tuning excepté. L'un et l'autre ne permettent pas la distillation ni les outputs prédits.
Pour l'inférence, la tarification est définie par million de tokens, en entrée et en sortie. Cela vaut aussi pour le fine-tuning, avec un supplément pour les tokens servant à affiner les modèles. Pour la recherche web, l'unité de facturation est le millier d'appels.
Hors éventuels traitements par lots et mise en cache des inputs, les prix sont les suivants :
GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
Inférence | 2 $ (input) 8 $ (output) | 0,40 $ (input) 1,60 $ (output) | 0,10 $ (input) 0,40 $ (output) |
Fine-tuning | 25 $ (entraînement) 3 $ (input) 12 $ (output) | 5 $ (entraînement) 0,80 $ (input) 3,20 $ (output) | |
Recherche web | 30 $ (petit contexte) 35$ (contexte moyen) 50 $ (grand contexte) | 25 $ (petit contexte) 27,50 $ (contexte moyen) 30 $ (grand contexte) |
GPT-4.1, au niveau de GPT-4.5... ou presque
En inférence, GPT-4.1 coûte donc environ 40 fois moins cher en input et 20 fois moins cher en output que GPT-4.5. Dans les benchmarks que publie OpenAI, il apparaît :
- Meilleur sur le code
SWE-bench verified (génération d'un patch à partir d'un dépôt et d'un ticket) : + 16,6 points
Alder, version diff polyglotte (production de diffs sur des problèmes en 5 langages issus d'Exercism): + 8 points - Meilleur en raisonnement mathématique
AIME '24 : + 11,4 points - Équivalent en vision
MMMU (questions sur des graphes, diagrammes et autres visuels) : même score
MathVista (problèmes mathématiques "visuels") : même score
CharXiv-Reasoning (questions sur des graphiques issus d'articles scientifiques) : - 2 points - Équivalent en culture générale et en appel de fonctions
- Moins performant sur le suivi d'instructions (- 5,5 points sur MultiChallenge ; - 6,5 points sur COLLIE ; - 0,8 point sur IFEval)
- Moins performant dans la recherche sur contexte long (- 10 à - 15 points sur diverses occurrences de Graphwalks, benchmark de recherche en profondeur au sein d'un graphe)
GPT-4.5 : un héritage en question
OpenAI affirme que ses travaux sur GPT-4.5 ont "beaucoup" nourri GPT-4o. Sans en dire davantage, en particulier s'il a effectué de la distillation. Il affirme en tout cas qu'à l'échelle d'entraînement atteinte, le goulet d'étranglement n'était plus tant le compute que les données.
Aux yeux de ce qui l'ont expérimenté, GPT-4.5 semble aujourd'hui plus "encadré" qu'à l'origine. Tout particulièrement au niveau des requêtes qui tendent à exposer ses capacités intrinsèques. Des requêtes qui ont pu révéler des structures cognitives spécifiques (raisonnement récursif pour la résolution de paradoxes, notamment) sont aujourd'hui restreintes. Soit purement bloquées, soit par troncature des réponses ou réinitialisation du modèle. De là, une question est née dans la communauté OpenAI : GPT-4.5 serait-il plus qu'un transformeur passé à l'échelle ?...
Illustration générée par IA
Sur le même thème
Voir tous les articles Data & IA