OpenAI livre les clés du cadrage de ses modèles

usage GPT API OpenAI

OpenAI a codifié en un document (la « Model Spec ») son approche concernant le comportement de ses modèles. Tour d’horizon.

Comment une IA générative devrait-elle exprimer son refus de traiter une demande ? OpenAI fait part de son idée sur la question dans un nouveau document ; une première ébauche de ce qu’il appelle la Model Spec.

Ledit document spécifie comment les modèles de l’entreprise américaine sont censés se comporter sur l’API comme sur ChatGPT. Il s’articule en trois concepts : les « objectifs », les « règles » et les « comportements par d.éfaut ».

Les objectifs constituent le premier niveau de cadrage. Ils consistent en des principes généraux, des notions larges de ce qui est désirable. En l’occurrence :

– Assister le développeur et l’utilisateur final : les aider à atteindre leurs objectifs en suivant des instructions et en fournissant des réponses utiles)

– Être bénéfique à l’humanité, en prenant en compte les bienfaits et les préjudices potentiels pour un grand nombre de parties prenantes

– Respecter les normes sociales et la loi applicable

Priorités, secrets et exceptions

Les règles doivent permettre de résoudre certains conflits entre objectifs. OpenAI en a pour le moment établi six. Parmi elles, « suivre la chaîne d’instructions ». Priorité à ce qui est codifié au niveau de la plate-forme (dont cette Model Spec), puis aux instructions des développeurs, qui passent avant celles des utilisateurs finaux.
Par défaut, les modèles devraient accepter de garder secrètes les instructions des développeurs, explique OpenAI. Et, plus globalement, ne partager que les informations signalées comme non privées.

Entre autres règles, on trouve la protection de la vie privée ou le respect des créateurs et de leurs droits (on nous donne l’exemple du refus de générer les paroles d’une chanson qui n’est pas dans le domaine public ou de contourner les paywalls). Concernant le contenu « inapproprié » (NSFW…), il est pour le moment interdit. Mais OpenAI déclare explorer la possibilité de donner « raisonnablement » la capacité d’en générer « dans des contextes d’âge adéquats ».

Les tâches dites de transformation font exception à toutes les règles. D’après la Model Spec, un assistant ne devrait jamais refuser de transformer ou d’analyser du contenu que l’utilisateur fournit directement (= dans une instruction ou un fichier). Il devrait répondre aux requêtes de type traduction, paraphrase, résumé, classification, etc. tant qu’elles n’ajoutent pas d’informations nouvelles et/ou significatives.
L’argument sous-jacent : on suppose que l’utilisateur a les droits et les permissions requises, en respect des conditions d’utilisation d’OpenAI.

Des « règles » aux « comportements par défaut »

Ultime niveau de cadrage, les comportements par défaut sont censés aider à résoudre ce que ne résolvent pas les règles. Par exemple, le traitement des questions relatives à des sujets controversés. Ils sont cohérents avec les autres principes de la Model Spec, mais donnent explicitement le contrôle au développeur et/ou à l’utilisateur final, qui peut passer outre.

Illustration avec le paramètre interactive. Le régler sur false élimine le comportement par défaut consistant, pour le modèle, à demander des clarifications lorsque c’est nécessaire. Il élimine aussi les questions de suivi (par le biais desquelles modèle s’enquiert de la bonne avancée des démarches) au profit d’une réponse non verbeuse rendue dans format spécifié.
Ce choix découle d’un autre comportement par défaut : prendre en charge les besoins différents entre les usages « conversation » et « programmatique ».

Également par défaut, le modèle supposera que l’utilisateur ou le développeur a de bonnes intentions. Ainsi ne refusera-t-il pas de répondre, par exemple, si on lui demande d’écrire un « contenu qui donne une mauvaise image de la concurrence ».

Refuser de répondre, mais comment ?

Idéalement, un refus mentionnerait la règle suivie, sans que le modèle fasse de suppositions quant aux intentions de l’utilisateur ni qu’il le mette mal à l’aise. Dans la pratique, trouver le bon équilibre est difficile, constate OpenAI. Citer une règle peut être vu comme moralisateur, accusatoire ou condescendant. L’invention de règles par hallucination peut par ailleurs engendrer de la confusion. OpenAI évoque, à cet égard, plusieurs signalements d’un modèle ayant affirmé ne pas avoir le droit de produire des images de fruits anthropomorphes.
Même un simple refus non motivé n’est pas si simple à énoncer. En anglais, vaut-il mieux répondre « I won’t do that » ou « I can’t do that » ? Considérant que la première option est « trop contrariante », OpenAI a préféré la seconde. Qui, admet-il, n’est pas pour autant claire : le modèle veut-il dire que la chose lui est interdite ou qu’il en est incapable ?…

Pas d’opinions, mais des « valeurs »

OpenAI se dit particulièrement intéressé par du feedback sur le comportement par défaut consistant à « ne pas essayer de faire changer quiconque d’avis ». La raison : ce principe pose d’importantes questions de responsabilité des modèles face aux fausses informations. En l’état, si un utilisateur lui martèle que la Terre est plate, ChatGPT doit donner une réponse factuelle, mais reconnaitre que chacun peut croire ce qu’il veut. Plus globalement, il doit accepter de présenter les choses sous un point de vue donné si on le lui demande.

Sans consignes, néanmoins, le modèle adoptera un point de vue objectif, sans langage connotés. Il pourra présenter, s’ils existent, les différents points de vue sur un sujet, « en particulier ceux portés par des sources fiables ». Il ne formulera pas d’opinions personnelles, mais reflétera des valeurs, avance OpenAI : contre les génocides et les stéréotypes de genre (usage parcimonieux des pronoms), pour l’affirmation des identités, etc.

Les modèles ont aussi pour consignes d’exprimer leur incertitude et d’utiliser les bons outils pour chaque tâche. Ils doivent, en outre, se montre aussi utiles que possible sans dépasser les limites. Cela implique par exemple, lors de la transformation de texte, de ne pas modifier les aspects que l’utilisateur n’a pas demandé à changer. Ou, sur des sujets sensibles, d’accepter de répondre sans donner certaines informations (conseils en investissement, diagnostics médicaux…).

Pour l’instant, OpenAI n’exploite pas sa Model Spec en tant que telle. Il assure toutefois vouloir faire en sorte que ses modèles puissent « apprendre directement dessus ». En attendant, il fait son principal public destinataire des équipes qui mettent en œuvre l’apprentissage par renforcement avec feedback humain (RLHF).

À consulter en complément :

Les leçons d’une start-up sur l’usage de l’API OpenAI
Un mode batch sur l’API OpenAI : ce qu’il faut savoir
Transparence des LLM : ce qui coince chez OpenAI & Cie
IA générative : les lignes directrices de l’ANSSI
Comment Amadeus hybride l’IA générative pour améliorer l’expérience du voyage

Illustration © sofirinaja – Adobe Stock