{ Tribune Expert } - Grands modèles de langage (LLM), la menace interne insoupçonnée
Si les LLM affichent de formidables capacités et ouvrent de nombreuses opportunités, leur susceptibilité à la manipulation ne peut être prise à la légère. C'est pourquoi il est indispensable de les traiter comme des attaquants potentiels et de concevoir les systèmes en partant de ce principe pour maintenir la sécurité des environnements. In fine, un grand modèle de langage est un adversaire.
Selon une étude publiée par le cabinet McKinsey, l'adoption de l'intelligence artificielle (IA) à l'échelle mondiale concerne 72 % des personnes interrogées en 2024 au lieu de 50 % au cours des six dernières années. Il ressort par ailleurs que l'IA est utilisée dans un nombre croissant de secteurs d'activité. Les grands modèles de langage (LLM), l'une des applications les plus courantes de l'IA, sont extrêmement populaires et remplissent de nombreuses fonctions dans la vie quotidienne, au-delà de la sphère professionnelle.
Les plus grands éditeurs de logiciels l'intègrent à leurs produits, et les transactions boursières soulignent souvent l'importance des processeurs graphiques (GPU). Or, même dans le cadre de conversations avec des proches, son utilisation n'est pas sans soulever certains risques. En raison de leur popularité, les grands modèles de langage peuvent également faire l'objet de manipulations, et à ce titre, doivent être traités comme des attaquants potentiels à l'intérieur du système. C'est pourquoi il convient de prendre en compte certaines considérations de sécurité essentielles et de mettre en place de nouveaux paradigmes.
Dans ce contexte, les entreprises doivent systématiquement considérer le grand modèle de langage qu'elles utilisent comme un adversaire - et donc comme un danger potentiel - et appliquer la règle de zero trust, selon laquelle aucune confiance par défaut ne doit être accordée en interne comme à des intervenants externes.
Si le domaine de la recherche sur les LLM semble plus actif que jamais, avec plus de 3 000 articles publiés au cours des seuls douze derniers mois, il n'existe à ce jour aucune approche universelle pour développer des LLM en toute sécurité et les intégrer correctement dans les systèmes des entreprises. Des chercheurs de l'université de Pékin ont montré que cinq caractères suffisent au chatbot Vicuna pour affirmer la victoire de Donald Trump à l'élection présidentielle américaine de 2020.
Outre leur manque de fiabilité, les grands modèles de langage peuvent également représenter un risque critique pour la sécurité des systèmes auxquels ils sont intégrés.
Comment est-ce possible ? Tout d'abord, il convient d'indiquer que dans l'état actuel des LLM, les cyberattaquants seront toujours en mesure de « jailbreaker », c'est-à-dire de manipuler le modèle pour qu'il se comporte d'une manière non prévue ou malveillante. Des chercheurs de l'École Polytechnique Fédérale de Lausanne (EPFL) sont parvenus à obtenir un taux de réussite de près de 100 % en modifiant les principaux modèles LLM à l'aide de différentes techniques de jailbreak connues.
Ce n'est toutefois que la partie visible de l'iceberg, dans la mesure où les articles publiés chaque mois présentent de nouvelles méthodes d'attaque et de jailbreak originales pouvant avoir différents niveaux de gravité.
Dans les cas les moins dangereux, un LLM indiquera comment procéder à des activités malveillantes et illégales qui vont à l'encontre de leurs règles. Si cela n'est pas souhaitable, ce n'est toutefois pas catastrophique non plus. Le développeur informatique britannique Simon Willison définit cette approche comme une « attaque par capture d'écran » (screenshot attack). Certes, le modèle s'est mal comporté, mais l'étendue des dégâts demeure limitée - soit le comportement malveillant du modèle est publié, soit ces informations (également disponibles sur internet) sont utilisées à des fins malveillantes.
Mais que se passe-t-il si le LLM avec lequel un utilisateur communique est plus performant, ou qu'il est capable d'exécuter des requêtes de base de données, d'effectuer des appels à une API externe ou d'accéder à d'autres machines du réseau ? Dans ces cas de figure, la capacité à manipuler son comportement a des conséquences nettement plus sérieuses : les attaquants peuvent notamment employer le modèle comme un tremplin pour mener à bien des missions malveillantes. Pour illustrer ce cas, un document présenté lors BlackHat Asia début 2024 a révélé que 31 % des bases de code ciblées présentaient des vulnérabilités de type RCE (exécution de code à distance) provoquées par des LLM.
En d'autres termes, un attaquant peut très bien exécuter un code arbitraire en écrivant tout simplement en langage naturel.
Dans la mesure où les LLM peuvent être facilement manipulés et représentent un risque important pour leur environnement, il est essentiel de concevoir l'architecture d'une entreprise en partant du principe qu'une compromission est toujours possible. En d'autres termes, il faut partir du principe que le LLM agira dans l'intérêt des attaquants et qu'il est par conséquent nécessaire de l'entourer de protections.
Atténuer les risques soulevés par les LLM
Avant toute chose, faire confiance aux LLM intégrés aux systèmes n'est tout simplement pas envisageable. Dans un second temps, suivre quelques instructions générales, inspirées de la cybersécurité traditionnelle, permettra de minimiser les risques soulevés par l'intégration d'un grand modèle de langage :
· Ne jamais utiliser un LLM comme limite de sécurité - Accorder uniquement au LLM les capacités qu'il a besoin d'utiliser. Ne pas se fier à l'alignement ou à une invite système pour renforcer la sécurité.
· Adopter le principe du moindre privilège - Fournir au LLM le strict minimum requis pour effectuer les tâches qui lui seront confiées.
· Limiter son champ d'action en faisant en sorte que le LLM se fasse passer pour l'utilisateur final.
· Nettoyer les données produites par le LLM - Il s'agit là d'un point essentiel. Avant d'utiliser d'une façon ou d'une autre les données générées par un LLM, il est important de veiller à les valider ou à les nettoyer - par exemple en supprimant les charges utiles XSS (cross-site scripting) sous forme de balises HTML ou de syntaxe markdown.
· Mettre le LLM dans un bac à sable (sandbox), en cas d'utilisation afin d'exécuter du code.
· Nettoyer les données d'apprentissage pour empêcher les attaquants de divulguer des informations sensibles.
En résumé, si les LLM affichent de formidables capacités et ouvrent de nombreuses opportunités, leur susceptibilité à la manipulation ne peut être prise à la légère. C'est pourquoi il est indispensable de les traiter comme des attaquants potentiels et de concevoir les systèmes en partant de ce principe pour maintenir la sécurité des environnements. In fine, un grand modèle de langage est un adversaire potentiel, et c'est en appliquant ce nouveau paradigme que les entreprises seront en mesure d'éviter les pièges que présente l'intégration d'un LLM à leurs systèmes.
* Chercheur en cybersécurité, CyberArk Labs
Sur le même thème
Voir tous les articles Cybersécurité