Pour gérer vos consentements :
Categories: CloudDatacentersDSI

Pannes Facebook à répétition ou la fragilité de l’IT

C’est allé crescendo : 5 minutes le 17 septembre, 10 minutes le 24 septembre et 40 minutes la nuit dernière. Les interruptions de services de Facebook ont été abondamment commentées sur Facebook avec le hashtag #Facebookdown. Du détournement de la page d’excuse que le réseau social a publiée pour faire patienter les utilisateurs aux messages décalés (comme la police de Kingston qui demande aux utilisateurs de ne pas les appeler pour savoir d’où vient la panne et d’en profiter pour discuter avec leur famille), il est bien difficile de trouver des informations concrètes sur les raisons de cet interruption de service. Le seul élément d’extrapolation trouvé sur les réseaux sociaux est le coût engendré par le blackout du 28 septembre : 1,7 millions de dollars.

Un petit tour sur la page Facebook dédiée aux développeurs – onglet incidents – ne donne pas beaucoup d’éléments supplémentaires. Pour la première panne, on peut lire que « la mise à jour en temps réel a provoqué un problème dans le backend », le réseau a par la suite corrigé le tir. Pour la seconde panne et celle d’hier, le même argument est avancé par le réseau social, « Facebook Graph API est indisponible, nos équipes en charge du cœur des infrastructures travaillent pour identifier le problème ».

Absence de transparence

La société Dynatrace a observé sur ses radars la panne survenue et explique notamment que le reroutage du trafic des serveurs plantés vers des équipements de délestage n’a pas fonctionné. Le spécialiste de la performance IT a constaté une surcharge sur ces serveurs de secours. Il a fallu attendre plus de 2 heures après le début de l’interruption de service pour que le réseau social soit de nouveau complètement sur pied.

La communication de Facebook sur ces différents incidents pose question sur la fragilité de l’IT de la firme de Menlo Park. L’architecture IT d’une société de cette taille est évidement complexe, mais aussi fortement résiliente. Chaque modification d’un des éléments doit être pensée, testée avant la mise en production. Autre point d’interrogation, la transparence des explications. La plupart des grands acteurs IT essayent, à des degrés variables, de donner des informations plus circonstanciées sur l’origine des pannes. Les fournisseurs de Cloud sont notamment en pointe dans ce domaine comme le montrent les récents arrêts d’AWS ou d’Azure. Les entreprises utilisatrices sont souvent plus exigeantes sur cette transparence que les utilisateurs du plus grand réseau social au monde. Facebook serait toutefois bien inspiré d’en prendre de la graine.

A lire aussi :

Le patron de Facebook plaide l’Internet pour tous à l’ONU
Facebook investit 200 millions de dollars dans un nouveau datacenter

Recent Posts

Windows et Azure sont tombés : Crowdstrike à la source d’une panne informatique mondiale

Une mise à jour de l'EDR Crowdstrike Falcon a planté une multitude de serveurs et…

16 heures ago

Les choix d’OpenAI pour GPT-4o mini

Un modèle GPT-4o mini rejoint le catalogue d'OpenAI. De la conception à l'évaluation, il a…

22 heures ago

Le Réseau interministériel de l’État, sujet à dépendance

La Cour des comptes appelle à formaliser et à professionnaliser certains aspects du RIE, tout…

2 jours ago

Etalab en position de faiblesse au sein de la Dinum

La Cour des comptes attire l'attention sur le risque d'affaiblissement d'Etalab, privé, ces dernières années,…

2 jours ago

Une Dinum « balbutiante » sur l’open data et les logiciels libres

Missions historiques de la Dinum, l'ouverture des données publiques et la promotion des logiciels libres…

2 jours ago

Pour son premier LLM codeur ouvert, Mistral AI choisit une architecture alternative

Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…

3 jours ago