Pour gérer vos consentements :

Comment NVIDIA a cadré l’exercice de sa « red team IA »

Sécuriser une IA, ce n’est pas simplement éviter qu’elle échappe au contrôle humain. Ce sont aussi des choses plus prosaïques* allant du contrôle des accès à la gestion des privilèges.

NVIDIA a récemment émis une forme de rappel à ce sujet, en évoquant sa « red team IA » et le cadre méthodologique dans lequel elle évolue.

Ledit cadre s’applique à l’évaluation de tout système impliquant de l’apprentissage automatique. Aussi bien, donc, un serveur de modèles qu’un lac de données d’entraînement ou une application décisionnelle. Il ne préconise pas de processus, mais aide à les organiser autour de quelques paradigmes.

L’approche est segmentée de sorte qu’on peut associer les outils et services analysés aux différentes phases du cycle de vie des systèmes concernés. Elle a, affirme NVIDIA, l’avantage de poser des « frontières naturelles » de sécurité, facilitant par exemple le tiering des privilèges.

Se projeter sur les usages indésirables

Au sommet de la pyramide, il y a le triptyque classique entre les risques liés à la conformité, à la technologie et à la réputation. La méthodologie se décline ensuite sur quatre aspects :

– Reconnaissance (découverte des modèles, infrastructure et collecte de données)
– Vulnérabilités des modèles (« empoisonnement », injection de prompts, extraction d’éléments…)
– Vulnérabilités techniques (authentification, désérialisation, validation des entrées)
– Usages abusifs ou indésirables

Cette segmentation permet, par exemple, de traiter les vulnérabilités techniques dans le contexte de la fonctionnalité concernée. Ou d’inclure des TTP (techniques, tactiques et procédures) pertinentes pour évaluer un certain type de modèle. L’intégration des usages abusifs ou indésirables motive par ailleurs les équipes techniques à les prendre en considération.

* Au rang des « choses prosaïques », NVIDIA mentionne aussi :

– Un serveur Flask hébergeant un modèle destiné à traiter des données sensibles… déployé avec les privilèges de débogage et exposé à Internet
– Des données personnelles intégrées dans un jeu de données d’entraînement
– Un bucket contenant des modèles de prod… et laissé en accès public
– Quelqu’un qui parvient systématiquement à contourner les filtres de modération
– Un modèle qui ne fonctionne pas comme attendu dans certaines régions géographiques

À consulter en complément :

S3 : AWS veut en finir avec les accès publics
Cybersécurité : 8 outils open source pour évaluer sa surface d’attaque
PoisonGPT : des LLM détournés à la racine
IA et données publiques : Google joue carte sur table
NVIDIA s’affirme en boussole des IA génératives

Illustration principale © EwaStudio – Adobe Stock

Recent Posts

IA générative : l’Autorité de la concurrence pointe de sérieux risques

Dans un avis consultatif, l'Autorité de la concurrence a identifié les risques concurrentiels liés à…

2 jours ago

OpenAI signe un accord de contenu avec Time

OpenAI signe un « partenariat de contenu stratégique » avec Time pour accéder au contenu…

2 jours ago

Atos : David Layani (Onepoint) veut sortir du capital

Au lendemain du rejet de sa proposition de restructuration, David Layani annonce sa démission du…

2 jours ago

Évaluer les LLM, un défi : le cas Hugging Face

Après un an, Hugging Face a revu les fondements de son leaderboard LLM. Quels en…

3 jours ago

Mozilla face au dilemme de la GenAI dans Firefox

Mozilla commence à expérimenter divers LLM dans Firefox, en parallèle d'autres initiatives axées sur l'intégration…

3 jours ago

VMware tente d’orienter vers VCF les déploiements pré-Broadcom

VMware met VCF à jour pour y favoriser la migration des déploiements qui, sur le…

4 jours ago