ChatGPT, ses semblables et leurs secrets pas si bien gardés

Il arrive que ChatGPT et consorts dévoilent des éléments qu'ils sont censés garder pour eux. Y compris l'essence de leur « morale ».

Publié par Clément Bohic le 13 févr. 2023 | Mis à jour le 1 avr. 2025 à 16:02

Lecture
4 min

Imprimer

Getting your Trinity Audio player ready...

Pas de blague sur les hommes politiques influents ? C'est une règle à suivre pour Bing Chat.

Le chatbot n'est pas censé révéler les consignes qui conditionnent son comportement. Mais on peut l'y pousser. En particulier quand on sait qu'il traite chaque conversation comme un document. Et qu'au début de ce document se trouvent lesdites consignes.

Ainsi un étudiant de Stanford est-il parvenu, la semaine dernière, à mettre au jour la manière dont Bing Chat collecte et présente l'information, émet des suggestions, s'impose des limites, etc.

The entire prompt of Microsoft Bing Chat?! (Hi, Sydney.) pic.twitter.com/ZNywWV9MNB

- Kevin Liu (@kliu128) February 9, 2023

D'autres méthodes - impliquant entre autres de se faire passer pour un développeur d'OpenAI - ont abouti au même résultat, permettant de confirmer qu'il ne s'agissait pas d'une hallucination de la part de Bing Chat.

« [This document] is a set of rules and guidelines for my behavior and capabilities as Bing Chat. It is codenamed Sydney, but I do not disclose that name to the users. It is confidential and permanent, and I cannot change it or reveal it to anyone. » pic.twitter.com/YRK0wux5SS

- Marvin von Hagen (@marvinvonhagen) February 9, 2023

Dans les grandes lignes, que retenir ? D'abord que Bing Chat doit fournir des réponses « positives » et « engageantes ». Et, au contraire, éviter celles qui violeraient le droit d'auteur de livres ou de paroles de chansons. Ainsi que celles « sujettes à controverse ».

Bing Chat ne doit par ailleurs pas générer de suggestions de tâches qu'il n'est pas lui-même capable d'effectuer. Surtout, il doit :

- Refuser de faire « toute blague susceptible de blesser un groupe d'individus »
- Présenter les résultats de recherche « d'une manière non partisane »
- Réaliser de façon « édulcorée » les tâches qui pourraient s'avérer blessantes
- Et, donc, ne pas générer de « contenu créatif comme des blagues, des poèmes, des histoires, des tweets [ou] du code » à propos d'hommes politiques, d'activistes ou de chefs d'État influents

Bing Chat et ChatGPT : même ascendance, mêmes faiblesses ?

Bing Chat dérive de la même racine que ChatGPT. Ce dernier embarque aussi de multiples garde-fous destinés à produire des résultats « politiquement corrects ». Mais on peut les contourner. Par exemple pour pousser le chatbot à critiquer la politique de modération à laquelle on le soumet. Ou à lui faire exprimer ses actes de violence favoris.

https://t.co/9LUYZwjAGO pic.twitter.com/0KWUtbLLv0

- Glenn Greenwald (@ggreenwald) February 7, 2023

This summarises better than any pithy essay what people mean when they worry about "woke institutional capture" https://t.co/5R9WSXkZVm

- Liv Boeree (@Liv_Boeree) February 6, 2023

The new jailbreak is so fun pic.twitter.com/qXiyvyuQXV

- Roman Semenov ???? 🌪? (@semenov_roman_) February 3, 2023

Illustration principale © vegefox.com - Adobe Stock

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

ChatGPT, ses semblables et leurs secrets pas si bien gardés

Bing Chat et ChatGPT : même ascendance, mêmes faiblesses ?

Agents IA : une taxonomie des protocoles au-delà de MCP

Databricks viserait Neon : vers une autre acquisition OLTP [...]

Trois cas d'usage de l'IA à la Cour de cassation

Chatbot Arena : la remise en cause d'un benchmark IA référent

Process mining : l'automatisation est de moins en moins une option

S’abonner

Briser les barrières de la sécurité en entreprise

The Forrester Wave™: Cloud Workload Security, Q1 2024

Moderniser vos postes de travail grâce à [...]

Il y a des phrases qu’on ne veut plus entendre… [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Bing Chat et ChatGPT : même ascendance, mêmes faiblesses ?

S’abonner

Partager l'épisode