Recherche

Windows et Azure sont tombés : Crowdstrike à la source d'une panne informatique mondiale

Une mise à jour de l’EDR Crowdstrike Falcon a planté une multitude de serveurs et de clients Windows, avec d’importantes répercussions à l’échelle mondiale. Air France, la Fnac, Canal+ et TF1 ont indiqué avoir été touché en France.

Publié par Clément Bohic le | Mis à jour le
Lecture
8 min
  • Imprimer
Windows et Azure sont tombés : Crowdstrike à la source d'une panne informatique mondiale

« Nous avons actuellement des problèmes système, le check-in est momentanément indisponible, […] on va vous enregistrer manuellement. »

L’alerte est apparue ce matin vers 7 heures sur un des canaux Webex réunissant les volontaires de Paris 2024. Elle s’est rapidement propagée à d’autres, jusqu’à ce que l’incident soit présenté comme une « panne mondiale » perturbant la remise des accréditations aux bénévoles.

Certains auront fait remarquer que le problème n’affectait pas que les Jeux. Ainsi un volontaire belge : « Ici […], les trains et 2 hôpitaux sont impactés aussi ». Même constat pour un de ses pairs, ingénieur dans une entreprise allemande spécialisée en reconnaissance faciale. L’intéressé a accompagné son propos d’un lien vers un article de la BBC. Le titre : « Une panne informatique mondiale touche des compagnies aériennes, des hôpitaux, des médias et des banques ».

Au rang des compagnies aériennes, Air France a effectivement vu son activité perturbée. Moins, toutefois, que KLM.

Un problème origine Crowdstrike

En Inde, où la plupart des aéroports ont subi le contrecoup, on a ressorti les stylos pour réaliser les cartes d’embarquement.

Comme le mentionne ce passager, l’incident implique Microsoft. Et surtout Crowdstrike : une mise à jour de son EDR Falcon a planté des postes Windows (client et serveur), entrés dans une boucle de redémarrage avec écran bleu.

Le souci n’est pas lié à l’agent lui-même, mais à une « mise à jour de contenu », affirme Crowdstrike.

Par « mise à jour de contenu », il semble falloir entendre « fichier de définitions de virus ». Reste qu’au bout du compte, c’est bien l’agent Falcon qui plante. En tant que pilote noyau, il entraîne d’autant plus facilement l’OS dans sa chute.

BitLocker et autres complexités

En sus du correctif, Crowdstrike recommande une méthode de contournement. Elle consiste à lancer Windows en mode sans échec, à se rendre dans le dossier des pilotes et à supprimer un fichier problématique.

Cette méthode peut s’avérer indispensable dans l’optique d’installer ledit correctif, même s’il arrive que des postes parviennent à le récupérer avant de crasher.

D’autres solutions de contournement ont émergé. L’une d’entre elles implique un script assorti d’une GPO. Une autre consiste à utiliser l’invite de commandes en mode admin pour désactiver le démarrage de l’agent. Certaines ne suppriment pas le fichier en cause, mais le renomment – lui ou son dossier parent.

Dans tous les cas, pour appliquer ces techniques, il faut pouvoir redémarrer en mode sans échec – avec réseau, c’est encore mieux – ou sur l’environnement de récupération Windows. Ce qui pose la question du dépannage à grande échelle. En particulier sur les machines auxquelles on n’a pas d’accès distant résistant au BSOD (boot réseau, accès niveau hyperviseur…).
C’est sans compter l’éventuel chiffrement du disque avec BitLocker. Un casse-tête dont témoignent certains. En premier lieu, ceux chez qui le serveur hébergeant les clés exécute lui-même l’EDR Crowdstrike.

De la Fnac à Canal+, des perturbations en France

La BBC n’a pas rencontré de problèmes de diffusion sur sa chaîne principale, mais sa chaîne jeunesse a connu des perturbations. La panne a été plus radicale pour Sky News. Et le rétablissement, progressif : la chaîne n’a pas tout de suite été en mesure de réaliser des incrustations.

En France, TF1 a pu assurer la diffusion de ses programmes « avec quelques dysfonctionnements ». Le problème a été plus sévère sur Canal+.

Le secteur de la grande distribution n’a pas été épargné. Illustration en France avec la Fnac, dont le site web est resté inaccessible pendant plusieurs heures, comme le système de retrait des commandes en magasin.

Des systèmes critiques touchés

L’impact s’est également fait ressentir dans les transports (circulation du métro de Washington, validation de titres dans la métropole d’Auckland…). Idem dans la banque, la gestion des eaux, la distribution énergétique, les systèmes de santé publique… et les services d’urgence – dont le 911 dans plusieurs États américains.
Il y a donc, dans l’affaire, des systèmes critiques. De là, une question : jusqu’où faut-il y autoriser les mises à jour automatiques de programmes niveau kernel, y compris celles qui ne concernent que des bases de données ?

Les systèmes sous Windows 7 et Windows Server 2008 R2 ne sont pas concernés, précise Crowdstrike. La version problématique du pilote concerné est horodatée 0409UTC (soit 5 h 09 du matin à Paris), ajoute-t-il.
C’est effectivement l’heure que Microsoft mentionne sur la page de statut d’Azure. Il y adjoint trois recommandations :

– Avec le CLI, le shell ou le portail Azure, tenter de relancer les VM à plusieurs reprises (cela peut nécessiter jusqu’à 15 redémarrages)
– Sinon, restaurer une sauvegarde antérieure à la diffusion du « mauvais » correctif
– Ou bien tenter attacher le disque à une VM de dépannage pour supprimer le pilote

Microsoft 365 a aussi connu des perturbations. Si certaines sont liées à Crowdstrike (sur les Cloud PC, par exemple), c’est moins clair pour d’autres. Par exemple, celle survenue dans la nuit du 18 juillet sur la plaque États-Unis. Elle découle officiellement d’un « changement sur une partie du back-end Azure », avec pour conséquence une « interruption entre ressources de stockage et de calcul »…

En pré-marché, l’action Crowdstrike avait perdu près de 20 %. Son cours est remonté depuis l’ouverture, mais elle cote toujours sous sa dernière valeur de clôture (- 10 %).

Illustration © Destina – Adobe Stock

Livres Blancs #cloud

Voir tous les livres blancs
S'abonner
au magazine
Se connecter
Retour haut de page