Twitter, source fiable de threat intelligence ?
Dans quelle mesure Twitter / X fournit-il des renseignements fiables sur la menace cyber ? Une étude universitaire aborde la question.
Comment repérer les bots sur Twitter ? On peut examiner, par exemple, la variation de la longueur des tweets et la diversité des canaux de publication.
Trois chercheurs universitaires ont utilisé ces critères - et une quarantaine d'autres - pour réaliser l'exercice. Leur démarche visait plus large : il s'agissait d'estimer dans quelle mesure le réseau social peut servir de source de renseignement sur les menaces.
Le compte rendu de ces travaux date de fin juin. X s'appelait alors encore Twitter - terminologie que nous respecterons ici.
Les grandes étapes de l'expérimentation :
- Collecte automatisée de tweets relatifs à la cybersécurité
- Extraction d'IoC (URL, adresses IP, noms de domaine, hashs, CVE)
- Évaluation de la fiabilité de ces IoC
- Étude des comptes ayant publié ces IoC (bots ou pas ?)
La collecte initiale s'est faite selon des mots-clés/hashtags, à l'aide de la bibliothèque Tweepy. Il en a résulté un échantillon d'envrion 2,4 millions de tweets. Après filtrage (exclusion des doublons, des retweets et des langues autres que l'anglais), il en est resté environ 430 000.
Un deuxième filtrage a permis d'exclure les IoC jugés non pertinents (tutoriels malware, références à des blogs cybersécurité...). L'échantillon final s'est composé de quelque 91 000 IoC, répartis sur 59 000 tweets.
Lire aussi : Sur GitHub, méfiance avec les étoiles ?
Twitter vs VirusTotal : intéressant pour les URL
Le contrôle de fiabilité a reposé sur trois aspects :
- Justesse (l'IoC est-il signalé sur au moins un autre service de threat intelligence ?)
- Ponctualité (l'apparition sur Twitter précède-t-elle la publication sur les autres services ?)
- Chevauchement (sur combien d'autres services l'IoC est-il présent ?)
Les tableaux suivants résument les résultats en matière de « justesse ». 46,34 % des IoC sont effectivement détectés comme malveillants sur VirusTotal (VT). Les taux sont moins élevés sur AlienVault (AV ; 6,77 %), MISP (3 %) et UrlHaus (UH ; 0,99 %).
Au global, 98,08 % des URL sont « pertinentes » (indicateurs d'une menace). Contre 57,67 % des noms de domaine, 46,98 % des URL et 28,75 % des IP.
Sur le volet « ponctualité », Twitter est intéressant essentiellement pour les URL. La plupart (78,4 %) y apparaissent avant d'être sur VirusTotal. On ne peut pas en dire autant des noms de domaine (14 %) et des adresses IP (1,2 %). Les CVE sont dans un entre-deux : environ un tiers (36,7 %) sont signalées sur Twitter avant d'être intégrées dans la NVD.
Sur les 1749 comptes ayant publié les IoC concernés, une minorité (3,1 %) entre dans la catégorie des bots. Elle est tout de même à l'origine de près d'un IoC sur cinq (18,22 %).
Illustration principale © deberarr - Adobe Stock
Sur le même thème
Voir tous les articles Cybersécurité