Pour gérer vos consentements :

Projet Storm : quand Facebook se prépare à perdre un datacenter

Lors de la conférence @Scale qui se tient cette semaine à San Jose, en Californie, Facebook a levé le voile sur les tests qu’il mène afin de s’assurer que son infrastructure résiste aux événements les plus extrêmes. Connu sous l’appellation projet Storm, le programme simule des pannes massives dans les datacenters afin de vérifier l’efficacité du PCA maison (Plan de continuité d’activité).

Comme l’explique Jay Parikh, le responsable des infrastructures chez Facebook, Storm est né après l’ouragan Sandy, qui a frappé la côte Est des États-Unis en octobre 2012. Même si les deux datacenters du réseau social en Caroline du Nord et en Virginie n’ont pas souffert de ce cyclone tropical d’une grande intensité, les ingénieurs maison ont pris conscience de la réalité de le menace et de la nécessité, pour Facebook, de garder un milliard d’utilisateurs connectés même en cas d’événement extrême comme celui-là.

Et si on coupait un datacenter ?

Facebook crée alors l’équipe Swat, deux douzaines de spécialistes chargés de piloter les équipes d’ingénierie dans une série de stress-tests permettant de mesurer la résistance des infrastructures à des chocs externes, comme un ouragan. « Nous avons résolu des problèmes auxquels personne ne s’était attaqués auparavant, des problèmes que personne n’a résolu ailleurs dans l’industrie », assure Jay Parikh, dans une interview à nos confrères de SiliconAngle. Facebook gère un trafic de plusieurs dizaines de To/s, des dizaines de Mégawatts de puissance électrique, des milliers de services logiciels.

Le projet Storm a débuté par des tests limités, consistant à mesurer les conséquences sur l’expérience utilisateur de brusques écarts de trafic réseau. Ce qui a permis aux équipes d’ingénierie de détecter et corriger des problèmes dans la gestion du trafic ou l’équilibrage de charge notamment. En 2014, l’équipe Swat s’estime armée pour le grand saut : un crash test impliquant l’arrêt d’un datacenter entier. Si les utilisateurs n’en ont pas ressenti les effets, selon l’ingénieur, les conséquences en arrière-plan sont majeures. « Un grand nombre d’éléments n’ont plus fonctionné », résume Jay Parikh. Les ingénieurs de Facebook se sont servis de cette expérience, et de la suivante de même nature, pour retravailler leur système de contrôle du trafic réseau, afin de rendre les transitions plus douces en cas d’événements exceptionnels de cette nature.

Infrastructure Facebook : si complexe…

Storm est toujours actif aujourd’hui ; des tests sont menés très régulièrement sur les infrastructures et de nouveaux scénarios de pannes sont déployés. Des scénarios que Jay Parikh s’est toutefois refusé à dévoiler pour ne pas renseigner ses concurrents sur ce sujet clef dans les infrastructures dites hyperscale. « Nous avons sans cesse des surprises », dit-il. En dehors de la préparation aux événements exceptionnels comme une catastrophe naturelle, le projet aide aussi Facebook à faire fonctionner son infrastructure au quotidien, selon Jay Parikh. Une infrastructure si complexe « qu’il n’existe pas un seul individu chez Facebook capable de comprendre comment l’ensemble du système fonctionne ».

A lire aussi :

IA : Facebook partage fastText, ses travaux sur le langage naturel

Datacenter : Facebook prend préventivement pied en Irlande

Emmanuel Besluau (Duquesne Group) : « La panne de Delta Airlines contient des zones d’ombre »

Recent Posts

Pour son premier LLM codeur ouvert, Mistral AI choisit une architecture alternative

Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…

17 heures ago

Microsoft x Inflection AI : l’autorité de la concurrence britannique lance son enquête

L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…

20 heures ago

Thomas Gourand, nouveau Directeur Général de Snowflake en France

Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…

22 heures ago

Accord Microsoft-CISPE : comment Google a tenté la dissuasion

Pour dissuader le CISPE d'un accord avec Microsoft, Google aurait mis près de 500 M€…

22 heures ago

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

23 heures ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

2 jours ago