La GenAI appliquée à la supervision de posture de sécurité : le cas LinkedIn

Publié par La rédaction le 13 nov. 2024 - mis à jour à 18:34

Pour doter son système de gestion de posture de sécurité d'une interface en langage naturel, LinkedIn a mis en oeuvre une approche mêlant GraphQL et Cypher.

Utiliser à la fois GraphQL et Cypher ? LinkedIn a fait ce choix pour intégrer une interface GenAI à sa plate-forme de gestion de posture de sécurité.

Cette interface, destinée à soumettre des requêtes en langage naturel, est venue compléter l'API et le playground GraphQL.

Un dataset de requêtes et de réponses prédéfinies constitue le socle d'entraînement du LLM sous-jacent (made in OpenAI). Ce dernier génère ensuite des données synthétiques simulant des scénarios potentiels. Elles sont enrichies par des métadonnées relatives aux interactions utilisateur. L'ensemble est vectorisé et indexé pour constituer une base de contexte.

Un système de double requête

Pour transformer les requêtes en instructions de récupération de données, LinkedIn s'appuie sur un graphe de connaissances qui modélise son inventaire. Celui-ci se nourrit d'une vingtaine de sources.

Les requêtes GraphQL pouvant nettement varier selon les cas d'usage, il peut être délicat d'exploiter les capacités d'appel de fonctions des LLM. LinkedIn a donc décidé de les mapper aux différents types de noeuds du graphe, aidant le modèle à choisir les plus pertinents.

Une fois les bons noeuds identifiés, le système construit un prompt qui inclut la question initiale ainsi que les propriétés sélectionnées et les exemples de requêtes associés. Le LLM traite ce prompt pour générer des requêtes Cypher.

Le système est censé adapter les prompts à l'évolution du contexte - qu'il peut affiner à renfort de recherche sémantique si des imprécisions apparaissent. Au cas où la requête principale ne produit pas de résultats satisfaisants, s'enclenche un mécanisme engendrant des requêtes secondaires (Cypher ou GraphQL). Les utilisateurs peuvent modifier ces requêtes.

Les outputs sont synthétisés et stockés temporairement pour être ajoutés aux questions ultérieures liées à une même session. L'un des défis en la matière est de traiter ces questions lorsque l'intention change.

Les travaux avaient débuté trois générations GPT en amont, avec le modèle Davinci. Le taux de précision était alors de l'ordre de 40 à 50 %, affirme LinkedIn. Avec la génération GPT-4, il est passé à 85-90 %.

À consulter en complément :

Du RAG aux agents, les choix GenAI de Doctolib
La RPA se met au diapason de la GenAI
Les LLM Granite 3.0 d'IBM, signes des temps
Mistral AI ouvre la porte aux LLM embarqués
Coder avec l'IA : les lignes directrices de l'ANSSI

Illustration Alexey Novikov - Adobe Stock