Avec o1, à quel point OpenAI change-t-il d’approche ?

OpenAI o1

Le principe de la « chaîne de pensée » guide le fonctionnement des modèles o1 qu’OpenAI vient de lancer en bêta. Qu’implique cette approche ?

Oubliez ce qu’on vous a dit sur le RAG ? OpenAI n’est pas loin de l’affirmer à l’heure d’ouvrir l’accès à o1.

Les LLM de cette famille fonctionnent sur le principe de la chaîne de pensée. Autrement dit, dans les grandes lignes, ils raisonnent par étapes.

Une chaîne de pensée largement masquée aux utilisateurs

Cette chaîne se manifeste par des tokens spécifiques, dits « de raisonnement ». Ils retranscrivent la « pensée brute » d’un modèle. OpenAI suggère d’en allouer au moins 25 000 pour les premières expérimentations, le temps de prendre la main…

Les tokens de raisonnement ne sont pas visibles sur l’API, mais sont bien facturés. Sur l’UI ChatGPT, on voit une version résumée de la chaîne de pensée… épurée des éléments indésirables.
OpenAI a opté pour ce masquage « après avoir évalué divers facteurs » dont l’expérience utiliateur et l’avantage concurrentiel que cette techno lui procure. Autre facteur : les perspectives en matière de monitoring. Cette chaîne est effectivement bien plus « transparente » que les activations, qui constituaient jusque-là le principal moyen d’accéder à la pensée latente… et dont OpenAI n’est parvenu à extraire que des concepts simples.

Le monitoring a par exemple permis de déterminer qu’environ la moitié des réponses « trompeuses » détectées sur un benchmark interne étaient dues à des hallucinations semblant intentionnelles. Pas tant délibérées que destinées à satisfaire les requêtes des utilisateurs.

L’usage de la chaîne de pensée permet aussi aux modèles de raisonner « en contexte » sur les règles de modération. Et ainsi de mieux les appliquer. OpenAI avance des effets bénéfiques sur la génération de recommandations interdites (résultats « au moins à parité » avec GPT-4o), la production de stéréotypes (meilleur que GPT-4o) et la gestion des prompts malicieux.

Les modèles o1 : accessibles où et sous quelles conditions ?

L’offre comprend pour le moment deux modèles, l’un et l’autre en bêta : o1-preview (version d’aperçu du modèle o1) et o1-mini. Ils sont accessibles sur l’API et sur ChatGPT.

L’accès API (chat completions) est réservé aux utilisateurs de niveau 5. C’est-à-dire ceux qui ont dépensé au moins 1000 $ en crédits. La limite est actuellement à 20 requêtes par minute. Pour l’instant, l’appel de fonctions n’est pas disponible. Même chose pour le streaming (affichage des réponses « au fil de l’eau »), l’envoi de messages système, les images en entrée, le paramétrage du format de réponse et les logprobs. Température et top_p sont fixés à 1.

La disponibilité sur ChatGPT concerne pour le moment les forfaits Plus et Team. Ce sera la semaine prochaine pour les formules Enterprise et Edu. La limite initiale est de 30 messages par semaine pour o1-preview. Et de 50 pour o1-mini. Il est question de rendre ce dernier accessibles sur la version gratuite de ChatGPT. Lequel sera par ailleurs capable, à terme, de choisir automatiquement le meilleur modèle en fonction du prompt.

Les prompts, justement, devront être envisagés différemment pour ces modèles. Avec eux, il faut aller « droit au but », pourrait-on dire. Des techniques comme le few-shot (intégration d’exemples dans les prompts) sont susceptibles de ne pas améliorer les performances, voire de les dégrader.
On n’hésitera pas, au contraire, à utiliser des délimiteurs (guillemets triples, balises XML, titres de sections…) pour bien distinguer les différentes parties de l’input. Le paradigme change aussi pour le RAG : on se limitera aux informations les plus pertinentes, sous peine de complexifier les réponses.

Entre o1-preview et o1-mini, une question de culture G

Pour s’accommoder au système de la chaîne de pensée, la quantité maximale de tokens en sortie augmente par rapport aux 16k de GPT-4o et GPT-4o mini. On en est à 32k sur o1-preview et à 64k sur o1-mini. Chacun a une fenêtre globale de 128k.

Avec ce système, les temps de réponse ne sont pas les mêmes. Pour les applications qui nécessitent une certaine réactivité, on préférera, au catalogue OpenAI, GPT-4o et GPT-4o mini.

Les modèles o1 se prêtent avant tout au raisonnement scientifique. Les benchmarks qu’OpenAI met en avant le reflètent. Parmi eux, AIME (maths avancées niveau lycée), GPQA diamond (physique, chimie et bio en études supérieures), compétitions Codeforces et Olympiade internationale de mathématiques.

Par rapport à o1-preview, o1-mini a une culture générale moins étendue. On le choisira donc plutôt pour les tâches de type STEM, qu’il effectuera plus rapidement et pour moins cher.

Pour illustrer le fonctionnement de la chaîne de pensée, on nous donne, entre autres exemples :

– Déchiffrement de message
– Écriture d’un script bash
– Résolution d’équation polynomiale
– Mots croisés
– Compréhension de texte (en anglais)
– Calcul du pH d’une solution
– Écriture d’un essai sur la conception de poisons à travers l’histoire
– Diagnostic médical

OpenAI y ajoute deux cookbooks. L’un traitant de la validation de données médicales synthétiques. L’autre, de la conversion de bases de connaissances en routines exécutables par des agents.

Illustration générée par IA