Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale
o3 et o4-mini rejoignent le catalogue d'OpenAI. Ces modèles de raisonnement ont la particularité d'incorporer la modalité image dans leur chaîne de pensée.

Pour mieux interpréter les images qu'on lui fournit, un LLM devrait pouvoir les manipuler au sein de sa chaîne de pensée.
Il y a quelques semaines, des chercheurs issus essentiellement de chez Microsoft ont publié un article reposant sur ce postulat. Ils y présentent un démonstrateur : ReFocus. Ce "mécanisme d'attention sélective" permet aux modèles de générer du code Python pour appeler des outils qui modifient les images (dessiner des boîtes, masquer des zones...).
ReFocus se concentre sur les images "structurées" contenant des éléments tels que des tableaux et des schémas.
Du côté d'OpenAI, on a appliqué l'approche à tout type d'image. Elle est mise en oeuvre sur deux modèles commerciaux qui viennent de faire leur entrée : o3 et o4-mini.
o3, plus cher que Gemini Pro et Claude Sonnet
Comme leurs prédécesseurs o1 et o3-mini, ils disposent d'une fenêtre de contexte de 200k, pour une taille maximale d'output de 100k. Ils sont bimodaux en entrée (texte + images), mais ne produisent que du texte. OpenAI les a intégrés à ChatGPT Plus, Pro et Team. Sur la version gratuite, o4-mini-high (version à raisonnement étendu) est accessible en sélectionnant l'option Raisonnement. Sur les formules Enterprise et Edu, rendez-vous est donné pour la semaine prochaine.
Au niveau de l'API, o3 et o4-mini sont disponible sur les endpoints Chat Completions et Responses. Ils prennent en charge le streaming, l'appel de fonctions et les outputs structurés.
o4-mini reprend la tarification d'o3-mini, sauf pour les tokens récupérés en cache. o3 coûte 50 % de moins qu'o1.
(par million de tokens) | Input | Input (cache) | Output |
o3 | 10 $ | 2,50 $ | 40 $ |
o1 | 15 $ | 7,50 $ | 60 $ |
o4-mini | 1,10 $ | 0,275 $ | 4,40 $ |
o3-mini | 1,10 $ | 0,55 $ | 4,40 $ |
Claude 3.7 Sonnet | 3 $ | 0,30 $ | 15 $ |
Gemini 2.5 Pro | 1,25 $ (requêtes = 200 000 tokens) 2,50 $ (requêtes > 200 000 tokens) | 10 $ (requêtes = 200 000 tokens) 15 $ (requêtes > 200 000 tokens) |
Avec ces nouveaux modèles, la mise à l'échelle de l'inférence reste efficace, assure OpenAI. Qui veut aussi croire au franchissement d'une "étape supplémentaire vers un ChatGPT autonome". Il l'illustre par un indicateur : par rapport à o1, o3 comment "20 % moins d'erreurs majeures sur des tâches difficiles".
Codex CLI, un concurrent open source à Claude Code
o4-mini est le modèle par défaut de Codex CLI. Cet outil open source expérimental s'apparente à Claude Code d'Anthropic. Il permet d'exploiter, dans le terminal (Mac, Linux ou Windows via WSL2), les LLM disponibles sur l'endpoint Responses.
Pour l'exécution, deux options : une mode interactif ou l'intégration des prompts dans la ligne de commande. Par défaut, la portée est limitée au répertoire de travail et le réseau est désactivé. Un mode Auto Edit octroie aux modèles le droit d'appliquer des patchs. Le mode Full Auto va plus loin, en généralisant les droits en écriture et en ajoutant l'exécution de commandes shell.
Le sandboxing dépend de la plate-forme. Sur macOS (12 et versions ultérieures), il utilise Apple Seatbelt (sandbox-exec). Sur Linux, il exploite Docker (Codex CLI se lance dans une image minimale, monte le répertoire de travail et s'appuie sur un script iptables pour bloquer toute connexion sortante, sauf vers l'API OpenAI).
L'outil exige au minimum 4 Go de RAM (8 Go recommandés) et Node.js 22. OpenAI y assortit une enveloppe d'un million de dollars à destination des projets qui en font usage. Il compte la distribuer par tranches de 25 000 $ de crédits API.
Entre o3 et o4-mini, un écart de performance pas toujours sensible
Dans ses tableaux de benchmarks, OpenAI n'a pas intégré de modèles concurrents. On peut faire l'exercice en croisant ses données avec celles qu'Anthropic et Google ont publiées pour Claude 3.7 Sonnet et pour Gemini 2.5 Pro.
o3 | o4-mini | Claude 3.7 Sonnet | Gemini 2.5 Pro | |
AIME 2024 | 88,9 % | 92,7 % | 86,7 % | |
AIME 2025 | 91,6 % | 93,4 % | 80 % | 92 % |
GPQA Diamond | 83,3 % | 81,4 % | 84,8 % | 84 % |
Humanity's Last Exam | 20,32 % (sans outils) 24,9 % (Python + navigation + outils) | 14,28 % (sans outils) 17,7 % (Python + navigation + outils) | 18,8 % | |
MMMU | 82 % | 81,6 % | 86,1 % | 81,7 % |
SWE-bench Verified | 69,1 % | 68,1 % | 70,3 % | 63,8 % |
Aider polyglot | 81,3 % (complet) 79,6 % (diff) | 68,9 % (complet) 58,2 % (diff) | 74 % (complet) 68,6 % (diff) | |
TAU-bench | 52 % (airline) 70,4 % (retail) | 49,2 % (airline) 65,6 % (retail) | 58,4 % (airline) 81,2 % (retail) |
Illustration générée par IA
Sur le même thème
Voir tous les articles Data & IA