Gestion d'incidents : le potentiel des LLM mis à l'épreuve

Les LLM, une option pour identifier les causes racines et suggérer des plans de remédiation ? C'est l'objet d'une étude.

Publié par Clément Bohic le 13 déc. 2023 | Mis à jour le 14 déc. 2023 à 15:28

Lecture
4 min

Imprimer

Dans quelle mesure peut-on envisager d'impliquer des LLM dans la gestion d'incidents sur les services cloud ? Six chercheurs - pour l'essentiel de la maison Microsoft - se sont penchés sur la question.

Leur démarche s'est concentrée sur deux aspects : l'identification des causes racines et l'élaboration de plans de remédiation. Ils ont constitué leurs datasets à partir d'informations liées à des incidents survenus chez Microsoft entre le 1^er janvier 2018 et le 15 juillet 2022.

Après divers filtrages (déduplication, suppression des explications dépassant 100 tokens...), il est resté, pour la partie « causes racines », 35 820 exemples d'entraînement, 3000 de test et 2000 de validation. Pour la partie remédiation, respectivement 5455, 2000 et 500 exemples.

L'expérimentation a englobé trois modèles génériques de traitement du langage naturel et trois autres spécialisés sur du code.

- RoBERTa (125 millions de paramètres)
- CodeBERT (125M)
- Curie (6,7B ; base GPT-3)
- Codex-cushman (12B ; base GPT-3)
- Davinci (175B ; base GPT-3.5)
- Code-davinci (175B ; base GPT-3.5)

L'inclusion de ces modèles spécialisés se justifie par la proximité entre les commentaires de code et les descriptions de causes racines ou de remédiations. Les chercheurs souhaitaient ainsi déterminer si le domaine de connaissances pouvait influer sur les performances.

Les modèles BERT ont fait l'objet d'adaptations destinées en particulier à augmenter leur capacité d'encodage. Faisant office de baseline, ils n'ont pas subi de surentraînement. Pour chaque problème, on leur a fait générer une réponse unique.
Les modèles GPT ont eu droit à un affinage en LoRA. Les chercheurs ont par ailleurs fait varier, à l'inférence, le degré de déterminisme, générant dix échantillons pour chaque problème.

Quand les tests automatisés ne suffisent pas

Sur la foi des métriques automatisées (évaluation lexicale et sémantique), la différence n'est pas flagrante entre les modèles de type encodeur-décodeur (BERT) et les décodeurs (GPT).

L'écart est bien plus net lorsqu'on fait évaluer les productions par des humains. Eux décèlent le caractère globalement très générique de ce que génèrent les modèles BERT.

L'entraînement multitâche pas plus efficace

Sans finetuning, de quoi les modèles d'OpenAI sont-ils capables ? La version courte : de bien moins. La plupart se débrouillent mieux pour détecter les causes racines que pour recommander des remédiations. Explication des chercheurs : sans spécialisation, les modèles GPT s'appuient sur l'input... avec lequel les causes racines ont tendance à avoir plus de tokens en commun que les remédiations.

Code-davinci dépasse nettement les autres GPT, autant de par sa taille que le volume de données sur lequel on l'a entraîné.

Si on entraîne les modèles sur les deux tâches à la fois, les résultats ne sont pas meilleurs qu'avec un entraînement séparé. Curie et Codex sont même souvent un peu moins performants. Idem pour Code-davinci. Tous modèles confondus, le déclin moyen est de 4,1 % en recommandation de remédiations. Le manque de lien avec la cause racine en est le principal facteur. Il est difficile de transférer les connaissances d'une tâche à l'autre à cause de la distribution distinctes de leurs espaces de réponses (longueur, concrétude).

Des LLM plus à l'aise avec les patterns machine

Le gain en remédiation est considérable si on fournit au modèle la cause racine. Sur les trois indicateurs évalués, la progression moyenne est de 5,4 % pour Davinci ; 8,3 % pour Codex ; 9,8 % pour Curie ; 26 % pour Code-davinci.

Toujours sur la foi des évaluations automatisées, les modèles s'en sortent pour recommander des remédiations sur des causes racines détectées par des machines. La raison : ces dernières suivent des patterns plus simples à reconnaître pour les LLM.

L'évaluation humaine a impliqué 25 gestionnaires. Les chercheurs leur ont soumis 50 incidents récents, de sorte qu'ils pouvaient se souvenir de leur traitement.

Les modèles OpenAI ayant généré plusieurs réponses, on a demandé aux évaluateurs de n'en traiter qu'une - celle qui leur paraissait la plus pertinente. Leur mission : donner des scores de correctitude et de lisibilité. Ces derniers sont systématiquement plus élevés sur les plus gros modèles.

Entre les LLM « génériques NLP » et les « spécialisés code », il n'y a pas de gagnant clair, tranchent les chercheurs. Il faudra, reconnaissent-ils, tenter du finetuning sur de gros modèles de code ou entraîner des modèles from scratch sur des données d'incidents.

Illustration © Deenanath - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

#LLM

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Gestion d'incidents : le potentiel des LLM mis à l'épreuve

Quand les tests automatisés ne suffisent pas

L'entraînement multitâche pas plus efficace

Des LLM plus à l'aise avec les patterns machine

Databricks viserait Neon : vers une autre acquisition OLTP [...]

Trois cas d'usage de l'IA à la Cour de cassation

Chatbot Arena : la remise en cause d'un benchmark IA référent

Process mining : l'automatisation est de moins en moins une option

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

S’abonner

Briser les barrières de la sécurité en entreprise

The Forrester Wave™: Cloud Workload Security, Q1 2024

Moderniser vos postes de travail grâce à [...]

Il y a des phrases qu’on ne veut plus entendre… [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Quand les tests automatisés ne suffisent pas

L'entraînement multitâche pas plus efficace

Des LLM plus à l'aise avec les patterns machine

S’abonner

Partager l'épisode