Baie EMC noyée : comment OVH a pris l'eau

OVH raconte l'enchaînement des événements qui ont conduit à la panne d'environ 24 heures de son service d'hébergement mutualisé. Un concours de circonstances doublé d'erreurs d'exploitation.

Publié par La rédaction le 7 juil. 2017 | Mis à jour le 28 déc. 2021 à 12:06

Lecture
5 min

Imprimer

Une nouvelle illustration de la loi de Murphy, aussi appelée loi de l'emmerdement maximum ? C'est ainsi qu'OVH présente la panne qui a touché son datacenter parisien P19 et provoqué une interruption de services allant au-delà de 24 heures pour certains des 50 000 sites concernés par l'incident. Tout est parti, le 29 juin à 18h48, d'une fuite de liquide de refroidissement sur le système de 'watercooling' d'OVH, une des marques de fabrique de l'hébergeur. Du liquide qui parvient à s'immiscer dans une des deux baies EMC présentes sur P19, baie qui n'était pas refroidie par ce procédé mais se trouvait à « proximité immédiate ».

Une proximité qui constitue une erreur évidente, ce que reconnaît d'ailleurs l'hébergeur roubaisien dans sa longue analyse post-mortem de l'incident, posté sur son site : « nous aurions dû installer [les baies EMC] dans des salles isolées, pour les protéger de ce type d'incident ». Et d'expliquer que le choix de cet emplacement résulte d'un malheureux concours de circonstances : les salles réservées aux équipements ne recevant pas le watercooling étaient en réfection au moment de l'achat des baies, en 2012. Manque de chance encore, les équipements EMC étaient tous voués à être remplacés par une nouvelle architecture maison, seules deux baies VNX 5400 restant en production chez OVH au moment de la panne, toutes deux hébergées sur le datacenter P19.

11 minutes qui changent tout

A ce concours de circonstances, s'ajoute un facteur aggravant : la mise à jour en cours d'un système d'alertes, basés sur des sondes, censé prévenir les techniciens par des messages audio lors d'événements anormaux (comme une fuite du liquide de refroidissement). « Dans le cadre de l'implantation à l'international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d'alerte dans plusieurs langues. En raison d'une malfaçon dans cet upgrade, réalisé le même jour, l'alerte audio n'a pas fonctionné correctement », écrit OVH. Retardant d'autant la prise en charge de l'incident.

Conséquence : le premier technicien n'est entré dans la salle touchée par la fuite que 11 minutes après son démarrage. « Ce retard a très certainement accentué l'impact de l'incident », reconnaît OVH. C'est ce qui explique peut être pourquoi la baie EMC aspergée est si gravement touchée. Malgré leurs efforts, les techniciens ne parviendront en effet jamais à la redémarrer. Tout comme seront inefficaces les efforts visant à remonter les disques de la baie touchée dans un second châssis, amené par la route depuis Roubaix.

OVH contraint à la restauration

En parallèle de cet acharnement thérapeutique sur la baie inondée, OVH s'est lancé dans la restauration des données depuis les sauvegardes quotidiennes effectuées sur le service d'hébergement Web concerné par la panne. Plus simple à dire qu'à faire. En effet, si la baie EMC comprend deux contrôleurs en mode actif/actif, assurant la redondance de l'équipement en cas de défaillance sur un module, la mise en panne du châssis oblige OVH à recréer l'ensemble de l'environnement de production des clients touchés, ici des bases de données de production. Soit trouver de l'espace libre sur les serveurs, puis redéployer les environnements supportant les bases (VM, OS, configurations spécifiques) et, enfin, migrer les données.

Sauf que la procédure d'urgence permettant d'enchaîner ces opérations n'avait pas suffisamment industrialisée, reconnaît l'hébergeur. C'est donc dans la nuit du jeudi au vendredi que les équipes d'OVH ont écrit les scripts permettant d'automatiser la procédure. « À 3 h du matin, le clonage des VM à partir d'un template source était lancé et les données étaient en cours de restauration », détaille la société. D'abord en lecture seule, OVH ayant alors toujours l'espoir de récupérer les données plus récentes, coincées dans la baie EMC et que l'hébergeur espère alors retrouver grâce au châssis envoyé en urgence depuis Roubaix.

Deux mois gratuits

Ces efforts s'avérant vains (la baie n'ayant pas pu être remise en service), l'hébergeur doit donc se résoudre, à 14h30 le vendredi, à lancer la restauration des bases en mode lecture/écriture. Tirant au passage un trait sur les données de ses clients enregistrées entre la dernière sauvegarde et la panne. « À 23 h 40, la restauration de la 99^e instance prend fin, et l'ensemble des utilisateurs retrouvent un site fonctionnel, à l'exception de quelques utilisateurs, dont la base était hébergée sur des instances sous MySQL 5.1 et a été restaurée sous MySQL 5.5. Un effet de bord rapidement résolu », conclut OVH, qui face à cet événement exceptionnel à décider d'accorder 2 mois d'hébergement gracieux aux utilisateurs concernés (qui payent en moyenne 4 euros HT par mois).

Si OVH promet la transparence sur les améliorations qu'il compte apporter à ses infrastructures par la suite pour éviter de connaître pareille mésaventure à l'avenir, l'hébergeur reconnaît d'ores et déjà qu'un « principe essentiel » de son fonctionnement n'a pas été respecté à l'occasion de cette panne : la répartition du risque sur plusieurs machines. Pour la société co-fondée par Octave Klaba, cet épisode conforte également le choix de la société de privilégier les technologies maison, sur lesquelles la société a « l'entière maîtrise du hardware, voire du software ». OVH confirme ainsi qu'il va finaliser la migration de la dernière baie EMC VNX 5400 actuellement encore en production. Et ce, même si la technologie du fournisseur américain n'est pas responsable de la panne.

OVH emprunte 400 millions d'euros pour accélérer son expansion

Cloud : OVH lance des instances optimisées GPU

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Baie EMC noyée : comment OVH a pris l'eau

11 minutes qui changent tout

OVH contraint à la restauration

Deux mois gratuits

Cloud et logiciels : le poids économique de la dépendance aux USA

VMware relance une version gratuite d'ESXi

Google Cloud Next '25 : l'inférence, maître mot des annonces infra

Health Data Hub : le gouvernement promet un appel d'offres pour [...]

"Nous avons quitté le cloud" : S3, ultime étape d'un retour sur site

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

11 minutes qui changent tout

OVH contraint à la restauration

Deux mois gratuits

S’abonner

Partager l'épisode