Avec o1, à quel point OpenAI change-t-il d'approche ?

Le principe de la « chaîne de pensée » guide le fonctionnement des modèles o1 qu'OpenAI vient de lancer en bêta. Qu'implique cette approche ?

Publié par Clément Bohic le 13 sept. 2024 | Mis à jour le 16 sept. 2024 à 07:56

Lecture
4 min

Imprimer

Oubliez ce qu'on vous a dit sur le RAG ? OpenAI n'est pas loin de l'affirmer à l'heure d'ouvrir l'accès à o1.

Les LLM de cette famille fonctionnent sur le principe de la chaîne de pensée. Autrement dit, dans les grandes lignes, ils raisonnent par étapes.

Une chaîne de pensée largement masquée aux utilisateurs

Cette chaîne se manifeste par des tokens spécifiques, dits « de raisonnement ». Ils retranscrivent la « pensée brute » d'un modèle. OpenAI suggère d'en allouer au moins 25 000 pour les premières expérimentations, le temps de prendre la main...

Les tokens de raisonnement ne sont pas visibles sur l'API, mais sont bien facturés. Sur l'UI ChatGPT, on voit une version résumée de la chaîne de pensée... épurée des éléments indésirables.
OpenAI a opté pour ce masquage « après avoir évalué divers facteurs » dont l'expérience utilisateur et l'avantage concurrentiel que cette techno lui procure. Autre facteur : les perspectives en matière de monitoring. Cette chaîne est effectivement bien plus « transparente » que les activations, qui constituaient jusque-là le principal moyen d'accéder à la pensée latente... et dont OpenAI n'est parvenu à extraire que des concepts simples.

Le monitoring a par exemple permis de déterminer qu'environ la moitié des réponses « trompeuses » détectées sur un benchmark interne étaient dues à des hallucinations semblant intentionnelles. Pas tant délibérées que destinées à satisfaire les requêtes des utilisateurs.

L'usage de la chaîne de pensée permet aussi aux modèles de raisonner « en contexte » sur les règles de modération. Et ainsi de mieux les appliquer. OpenAI avance des effets bénéfiques sur la génération de recommandations interdites (résultats « au moins à parité » avec GPT-4o), la production de stéréotypes (meilleur que GPT-4o) et la gestion des prompts malicieux.

Les modèles o1 : accessibles où et sous quelles conditions ?

L'offre comprend pour le moment deux modèles, l'un et l'autre en bêta : o1-preview (version d'aperçu du modèle o1) et o1-mini. Ils sont accessibles sur l'API et sur ChatGPT.

L'accès API (chat completions) est réservé aux utilisateurs de niveau 5. C'est-à-dire ceux qui ont dépensé au moins 1000 $ en crédits. La limite est actuellement à 20 requêtes par minute. Pour l'instant, l'appel de fonctions n'est pas disponible. Même chose pour le streaming (affichage des réponses « au fil de l'eau »), l'envoi de messages système, les images en entrée, le paramétrage du format de réponse et les logprobs. Température et top_p sont fixés à 1.

La disponibilité sur ChatGPT concerne pour le moment les forfaits Plus et Team. Ce sera la semaine prochaine pour les formules Enterprise et Edu. La limite initiale est de 30 messages par semaine pour o1-preview. Et de 50 pour o1-mini. Il est question de rendre ce dernier accessibles sur la version gratuite de ChatGPT. Lequel sera par ailleurs capable, à terme, de choisir automatiquement le meilleur modèle en fonction du prompt.

Les prompts, justement, devront être envisagés différemment pour ces modèles. Avec eux, il faut aller « droit au but », pourrait-on dire. Des techniques comme le few-shot (intégration d'exemples dans les prompts) sont susceptibles de ne pas améliorer les performances, voire de les dégrader.
On n'hésitera pas, au contraire, à utiliser des délimiteurs (guillemets triples, balises XML, titres de sections...) pour bien distinguer les différentes parties de l'input. Le paradigme change aussi pour le RAG : on se limitera aux informations les plus pertinentes, sous peine de complexifier les réponses.

Entre o1-preview et o1-mini, une question de culture G

Pour s'accommoder au système de la chaîne de pensée, la quantité maximale de tokens en sortie augmente par rapport aux 16k de GPT-4o et GPT-4o mini. On en est à 32k sur o1-preview et à 64k sur o1-mini. Chacun a une fenêtre globale de 128k.

Avec ce système, les temps de réponse ne sont pas les mêmes. Pour les applications qui nécessitent une certaine réactivité, on préférera, au catalogue OpenAI, GPT-4o et GPT-4o mini.

Les modèles o1 se prêtent avant tout au raisonnement scientifique. Les benchmarks qu'OpenAI met en avant le reflètent. Parmi eux, AIME (maths avancées niveau lycée), GPQA diamond (physique, chimie et bio en études supérieures), compétitions Codeforces et Olympiade internationale de mathématiques.

Par rapport à o1-preview, o1-mini a une culture générale moins étendue. On le choisira donc plutôt pour les tâches de type STEM, qu'il effectuera plus rapidement et pour moins cher.

Pour illustrer le fonctionnement de la chaîne de pensée, on nous donne, entre autres exemples :

- Déchiffrement de message
- Écriture d'un script bash
- Résolution d'équation polynomiale
- Mots croisés
- Compréhension de texte (en anglais)
- Calcul du pH d'une solution
- Écriture d'un essai sur la conception de poisons à travers l'histoire
- Diagnostic médical

OpenAI y ajoute deux cookbooks. L'un traitant de la validation de données médicales synthétiques. L'autre, de la conversion de bases de connaissances en routines exécutables par des agents.

Illustration générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Avec o1, à quel point OpenAI change-t-il d'approche ?

Une chaîne de pensée largement masquée aux utilisateurs

Les modèles o1 : accessibles où et sous quelles conditions ?

Entre o1-preview et o1-mini, une question de culture G

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

{ Tribune Expert } - La voie vers une véritable IA open source

S’abonner

Les enjeux de la supervision du système d’information !

La Threat Intelligence : quand, quoi et comment ?

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Une chaîne de pensée largement masquée aux utilisateurs

Les modèles o1 : accessibles où et sous quelles conditions ?

Entre o1-preview et o1-mini, une question de culture G

S’abonner

Partager l'épisode