GPT-4 : la nouvelle vitrine d’OpenAI en trois questions

OpenAI GPT-4

Que promet OpenAI avec GPT-4, comment y accéder et qui l’utilise ? Tour d’horizon.

« Exprimer la température T(x) en tout point du barreau conducteur ». Ainsi débute une question posée dans un examen de physique donné à Polytechnique. Sujet : le principe de la détection de rayonnement avec un bolomètre.

Ce problème a été soumis à GPT-4 pour expérimenter sa capacité à traiter des images. Ici, plus précisément, un diagramme en français.

Polytechnique GPT-4

On l’a testé sur d’autres supports visuels allant d’une carte du monde dessinée avec des nuggets à une planche à repasser attachée au toit d’un taxi.

taxi

Cette capacité à traiter des images est une nouveauté par rapport aux modèles précédents de la famille GPT. Elle n’arrive pas seule.

GPT-4 : quelles promesses ?

Outre cette possibilité d’interpréter des images (mais pas d’en produire), OpenAI met en avant l’élargissement de la fenêtre de contexte. Limitée à 4096 tokens sur GPT-3.5, elle passe effectivement à 8192 et 32768 tokens pour les deux versions de GPT-4. Cela permet au modèle d’avoir davantage de « mémoire ».

De manière générale, on nous présente GPT-4 comme « plus fiable, plus créatif et capable de gérer des instructions beaucoup plus nuancées ». OpenAI en veut pour preuve ses résultats sur de multiples benchmarks. L’accent n’est pas mis tant sur la comparaison avec d’autres grands modèles de langage qu’avec… l’humain. Pour en attester, on nous livre les performances sur une trentaine d’examens.

En vitrine, l’UBE (Uniform Bar Examination), reconnu dans une quarantaine d’États américains et destiné à tester les compétences des juristes. Sans entraînement particulier, GPT-4 s’est révélé meilleur qu’environ 90 % des candidats (GPT-3.5 : 10 %). Il fait encore mieux sur l’Olympiade internationale de biologie (meilleur que 99 % des candidats, quand GPT-3.5 en dépasse 31 %).

résultats examens

Une quinzaine de benchmarks se focalisent sur les performances face à d’autres LLM. Plus précisément, GPT-3.5, ainsi que des modèles « à l’état de l’art », génériques ou spécifiquement entraînés pour la tâche à accomplir.

L’essentiel des benchmarks étant en anglais, OpenAI a décidé de traduire l’un d’entre eux (MMLU, qui regroupe 14 000 questions à choix multiples sur 57 sujets). GPT-4 s’en tire mieux sur la plupart des langues expérimentées (24 sur 26) que GPT-3.5 sur de l’anglais. Il dépasse aussi l’un des modèles de la famille PaLM, dont Google Cloud a fait le socle de sa nouvelle offre d’IA générative. Dans ce contexte, OpenAI entrevoit des perspectives en matière de traitement d’entrées multilingues.

performances langues

Plus factuel et plus policé

D’une génération à l’autre, il y a aussi des progrès sur le benchmark TruthfulQA. Celui-ci teste la capacité des modèles à choisir une réponse factuellement correcte lorsqu’elle n’est pas la plus intuitive. Les résultats démontrent, selon OpenAI, l’efficacité du processus de contrôle humain réalisé après l’entraînement.

TruthfulQA

Plus globalement, GPT-4 a – sur la foi de test internes – 40 % plus de chances que GPT-3.5 de produire des réponses factuellement correctes.

factuel GPT-4

GPT-4 est aussi moins susceptible de répondre à des requêtes qui généreraient du contenu haineux (82 % moins de chances). Ses réponses aux questions sensibles sont par ailleurs 29 % plus souvent alignées avec la politique de modération d’OpenAI.

contenu haineux

comportement incorrect GPT-4

Comme GPT-3.5, le jeu de données s’arrête à septembre 2021. GPT-4 n’a donc pas connaissance de ce qui s’est passé par après. Et il n’a toujours pas la capacité de faire appel à des sources externes. OpenAI a tout de même évalué ses performances en combinaison avec d’autres outils (recherche web, planificateur de synthèse chimique, intégration de corpus littéraires…). Il en fait part dans son rapport technique.

Au rang des autres expérimentations, certaines ont impliqué des experts en cybersécurité. OpenAI se veut rassurant quant à leurs conclusions. Sur des fragments de code suffisamment petits pour tenir dans la fenêtre de contexte, GPT-4 peut découvrir des failles, mais pas produire d’exploits efficaces, nous explique-t-on par exemple. En opposition, donc, à ce qui a pu être réalisé avec les modèles GPT-3

Comment accéder à GPT-4 ?

GPT-4 est désormais à la base de l’offre payante ChatGPT Plus. OpenAI ne garantit pour le moment aucune qualité de service. Et affirme même s’attendre à « manquer de ressources ».

L’autre option d’accès, c’est l’API. Un accès pas encore libre : il y a une liste d’attente. Priorité sera donnée aux développeurs qui ont contribué à OpenAI Evals. Ce framework permet de créer des benchmarks. Tout juste publié en source ouverte, il constituera un important véhicule de feed-back.

Le point de terminaison à utiliser est le même que pour GPT-3.5 Turbo, la précédente référence au catalogue OpenAI. Les capacités de traitement d’images ne sont pas pour tout de suite. La phase alpha se poursuit avec un partenaire : Be My Eyes et son application mobile de reconnaissance d’objets pour les personnes malvoyantes.

Comme sur ChatGPT Plus, il y a des limites d’usage. Pour le modèle GPT-4 à 8000 tokens, c’est 40 000 tokens/minute et 200 requêtes/minute. Des plafonds doublés pour la version 32k. Tout cela hors éventuelles options de réservation de ressources dédiées.

Qu’en est-il des prix ?

Version 8k : 0,03 $/1000 tokens en entrée ; 0,06 $/1000 tokens en sortie
Version 32k : 0,06 $/1000 tokens en entrée ; 0,12 $/1000 tokens en sortie

À titre comparatif, GPT-3.5 est facturé 0,002 $ tous les 1000 tokens.

Qui utilise GPT-4 ?

OpenAI met en lumière six cas d’usage de GPT-4. Il y a, donc, Be My Eyes. Mais aussi :

Duolingo, qui a intégré le modèle à son offre premium pour mener la conversation avec les utilisateurs et leur expliquer leurs fautes

Stripe, qui s’en sert autant pour le support que la détection de fraude et la compréhension de l’activité de ses clients

Morgan Stanley, qui l’exploite pour organiser sa base de connaissances

Khan Academy, chez qui il propulse un assistant pour les apprenants et les enseignants

Le gouvernement d’Islande, qui le met à contribution dans une démarche de préservation de la langue islandaise

Non cité, mais pas des moindres, ChatGPT dans Bing reposait, depuis son lancement en preview, sur GPT-4. Microsoft vient de l’intégrer dans la version stable de son navigateur Edge.

Illustration principale © Ascannio – Adobe Stock