GPT-4 : la nouvelle vitrine d'OpenAI en trois questions
Que promet OpenAI avec GPT-4, comment y accéder et qui l’utilise ? Tour d’horizon.
« Exprimer la température T(x) en tout point du barreau conducteur ». Ainsi débute une question posée dans un examen de physique donné à Polytechnique. Sujet : le principe de la détection de rayonnement avec un bolomètre.
Ce problème a été soumis à GPT-4 pour expérimenter sa capacité à traiter des images. Ici, plus précisément, un diagramme en français.
On l’a testé sur d’autres supports visuels allant d’une carte du monde dessinée avec des nuggets à une planche à repasser attachée au toit d’un taxi.
Lire aussi : Les choix d'OpenAI pour GPT-4o mini
Cette capacité à traiter des images est une nouveauté par rapport aux modèles précédents de la famille GPT. Elle n’arrive pas seule.
GPT-4 : quelles promesses ?
Outre cette possibilité d’interpréter des images (mais pas d’en produire), OpenAI met en avant l’élargissement de la fenêtre de contexte. Limitée à 4096 tokens sur GPT-3.5, elle passe effectivement à 8192 et 32768 tokens pour les deux versions de GPT-4. Cela permet au modèle d’avoir davantage de « mémoire ».
De manière générale, on nous présente GPT-4 comme « plus fiable, plus créatif et capable de gérer des instructions beaucoup plus nuancées ». OpenAI en veut pour preuve ses résultats sur de multiples benchmarks. L’accent n’est pas mis tant sur la comparaison avec d’autres grands modèles de langage qu’avec… l’humain. Pour en attester, on nous livre les performances sur une trentaine d’examens.
En vitrine, l’UBE (Uniform Bar Examination), reconnu dans une quarantaine d’États américains et destiné à tester les compétences des juristes. Sans entraînement particulier, GPT-4 s’est révélé meilleur qu’environ 90 % des candidats (GPT-3.5 : 10 %). Il fait encore mieux sur l’Olympiade internationale de biologie (meilleur que 99 % des candidats, quand GPT-3.5 en dépasse 31 %).
Une quinzaine de benchmarks se focalisent sur les performances face à d’autres LLM. Plus précisément, GPT-3.5, ainsi que des modèles « à l’état de l’art », génériques ou spécifiquement entraînés pour la tâche à accomplir.
Lire aussi : GPT-4o : où, quand et pour qui ?
L’essentiel des benchmarks étant en anglais, OpenAI a décidé de traduire l’un d’entre eux (MMLU, qui regroupe 14 000 questions à choix multiples sur 57 sujets). GPT-4 s’en tire mieux sur la plupart des langues expérimentées (24 sur 26) que GPT-3.5 sur de l’anglais. Il dépasse aussi l’un des modèles de la famille PaLM, dont Google Cloud a fait le socle de sa nouvelle offre d’IA générative. Dans ce contexte, OpenAI entrevoit des perspectives en matière de traitement d’entrées multilingues.
Plus factuel et plus policé
D’une génération à l’autre, il y a aussi des progrès sur le benchmark TruthfulQA. Celui-ci teste la capacité des modèles à choisir une réponse factuellement correcte lorsqu’elle n’est pas la plus intuitive. Les résultats démontrent, selon OpenAI, l’efficacité du processus de contrôle humain réalisé après l’entraînement.
Plus globalement, GPT-4 a – sur la foi de test internes – 40 % plus de chances que GPT-3.5 de produire des réponses factuellement correctes.
GPT-4 est aussi moins susceptible de répondre à des requêtes qui généreraient du contenu haineux (82 % moins de chances). Ses réponses aux questions sensibles sont par ailleurs 29 % plus souvent alignées avec la politique de modération d’OpenAI.
Comme GPT-3.5, le jeu de données s’arrête à septembre 2021. GPT-4 n’a donc pas connaissance de ce qui s’est passé par après. Et il n’a toujours pas la capacité de faire appel à des sources externes. OpenAI a tout de même évalué ses performances en combinaison avec d’autres outils (recherche web, planificateur de synthèse chimique, intégration de corpus littéraires…). Il en fait part dans son rapport technique.
Au rang des autres expérimentations, certaines ont impliqué des experts en cybersécurité. OpenAI se veut rassurant quant à leurs conclusions. Sur des fragments de code suffisamment petits pour tenir dans la fenêtre de contexte, GPT-4 peut découvrir des failles, mais pas produire d’exploits efficaces, nous explique-t-on par exemple. En opposition, donc, à ce qui a pu être réalisé avec les modèles GPT-3…
Comment accéder à GPT-4 ?
GPT-4 est désormais à la base de l’offre payante ChatGPT Plus. OpenAI ne garantit pour le moment aucune qualité de service. Et affirme même s’attendre à « manquer de ressources ».
L’autre option d’accès, c’est l’API. Un accès pas encore libre : il y a une liste d’attente. Priorité sera donnée aux développeurs qui ont contribué à OpenAI Evals. Ce framework permet de créer des benchmarks. Tout juste publié en source ouverte, il constituera un important véhicule de feed-back.
Le point de terminaison à utiliser est le même que pour GPT-3.5 Turbo, la précédente référence au catalogue OpenAI. Les capacités de traitement d’images ne sont pas pour tout de suite. La phase alpha se poursuit avec un partenaire : Be My Eyes et son application mobile de reconnaissance d’objets pour les personnes malvoyantes.
Comme sur ChatGPT Plus, il y a des limites d’usage. Pour le modèle GPT-4 à 8000 tokens, c’est 40 000 tokens/minute et 200 requêtes/minute. Des plafonds doublés pour la version 32k. Tout cela hors éventuelles options de réservation de ressources dédiées.
Qu’en est-il des prix ?
Version 8k : 0,03 $/1000 tokens en entrée ; 0,06 $/1000 tokens en sortie
Version 32k : 0,06 $/1000 tokens en entrée ; 0,12 $/1000 tokens en sortie
À titre comparatif, GPT-3.5 est facturé 0,002 $ tous les 1000 tokens.
Qui utilise GPT-4 ?
OpenAI met en lumière six cas d’usage de GPT-4. Il y a, donc, Be My Eyes. Mais aussi :
Duolingo, qui a intégré le modèle à son offre premium pour mener la conversation avec les utilisateurs et leur expliquer leurs fautes
Stripe, qui s’en sert autant pour le support que la détection de fraude et la compréhension de l’activité de ses clients
Morgan Stanley, qui l’exploite pour organiser sa base de connaissances
Khan Academy, chez qui il propulse un assistant pour les apprenants et les enseignants
Le gouvernement d’Islande, qui le met à contribution dans une démarche de préservation de la langue islandaise
Non cité, mais pas des moindres, ChatGPT dans Bing reposait, depuis son lancement en preview, sur GPT-4. Microsoft vient de l’intégrer dans la version stable de son navigateur Edge.
Illustration principale © Ascannio – Adobe Stock
Sur le même thème
Voir tous les articles Data & IA