Pour gérer vos consentements :
Categories: ChatGPT

L’œil dans la boîte noire : des LLM poussés à révéler leur face cachée

Envie d’en savoir plus sur un LLM en boîte noire ? Extrayez-en une couche.

Des chercheurs ont expérimenté avec succès une attaque de ce type sur plusieurs modèles de production, dont PaLM-2 et GPT-4. En utilisant l’API publique, ils ont pu déterminer la dimension vectorielle de la dernière couche. Voire, pour les plus petits modèles (notamment Ada et Babbage d’OpenAI), l’intégralité de la matrice de poids.

L’attaque tire parti de la projection de cette dernière couche dans un vecteur logit. Elle s’applique en premier lieu aux API qui révèlent intégralement ce vecteur pour chaque token de réponse. Mais aussi, moyennant des adaptations, à celles qui ne révèlent que des probabilités logarithmiques.

Dans les grandes lignes, en envoyant suffisamment de requêtes, on finit par observer un phénomène de dépendance linéaire. Celui-ci se manifeste par une réduction des différences entre valeurs singulières consécutives, trahissant la dimension cachée.

L’approche suivie sur les API qui ne fournissent que des logprobs implique un token « de référence » qui permet de connaître la différence relative entre tous les logits. Sur les API qui ne fournissent pas de logprobs, l’attaque utilise la recherche binaire sur le vecteur de biais logarithmique.

La méthode à 4 logprobs s’est révélée à la fois la plus précise et la plus efficace du point de vue des coûts (moins de 20 $ pour récupérer les matrices de poids d’Ada et de Babbage ; potentiellement moins de 2000 $ pour GPT-3.5 Turbo).

« Bits of precision » correspond au nombre de bits effectivement en accord avec le contenu du vecteur logit. La méthode à 5 logprobs est moins fidèle, car elle implique une matrice mal conditionnée.

Ces informations sont susceptibles d’alimenter d’autres attaques comme l’injection de prompts. Elles ouvrent aussi la voie à l’examen des API de finetuning. La non-linéarité des modèles de langage de type transformeur complique en revanche l’attaque sur plusieurs couches.

Une fois l’attaque portée à leur connaissance, les fournisseurs des LLM concernés ont intégré des mesures défensives, nous assure-t-on.

Recent Posts

IA générative : l’Autorité de la concurrence pointe de sérieux risques

Dans un avis consultatif, l'Autorité de la concurrence a identifié les risques concurrentiels liés à…

2 jours ago

OpenAI signe un accord de contenu avec Time

OpenAI signe un « partenariat de contenu stratégique » avec Time pour accéder au contenu…

2 jours ago

Atos : David Layani (Onepoint) veut sortir du capital

Au lendemain du rejet de sa proposition de restructuration, David Layani annonce sa démission du…

2 jours ago

Évaluer les LLM, un défi : le cas Hugging Face

Après un an, Hugging Face a revu les fondements de son leaderboard LLM. Quels en…

3 jours ago

Mozilla face au dilemme de la GenAI dans Firefox

Mozilla commence à expérimenter divers LLM dans Firefox, en parallèle d'autres initiatives axées sur l'intégration…

3 jours ago

VMware tente d’orienter vers VCF les déploiements pré-Broadcom

VMware met VCF à jour pour y favoriser la migration des déploiements qui, sur le…

4 jours ago