OVH : les enseignements techniques de la sale journée en data centers

Entre Strasbourg et Roubaix, OVH a dû gérer deux incidents d'exploitation sérieux. Retour sur les failles des dispositifs entre installations électriques et réseaux optiques.

Publié par La rédaction le 10 nov. 2017 | Mis à jour le 2 mars 2021 à 11:30

Lecture
6 min

Imprimer

A la suite de la panne importante qui a touché les infrastructures d'OVH provoquant un impact direct auprès de sa clientèle en France, le fournisseurs de services Internet pour les entreprises (avec l'hébergement Web comme coeur de métier) est revenu sur les deux incidents distincts survenus hier matin.

Dans deux contributions nocturnes sur le forum de support OVH, Octave Klaba, fondateur et directeur technique, explique le contexte de la coupure électrique qui a plongé trois datacenters localisés à Strasbourg dans le noir pendant quelques heures (3h30 selon le compteur officiel).

« Le pire scénario qui puisse nous arriver », reconnaît d'emblée l'expert en réseaux dans sa première contribution post-incident.

L'expérience malheureuse de ces deux incidents distincts survenus le même jour est néanmoins riche en enseignements,en décortiquant la contribution dense d'Octave Klaba.

Strasbourg : pourquoi le système électrique a failli (bonus réflexion sur le mode hyper-croissance d'OVH)

Le site de centres de données de Strasbourg est alimenté par une ligne électrique de 20KVA (composée de 2 câbles qui délivrent chacun 10MVA) fournie par ELD (Strasbourg Électricité Réseaux, filiale d'EDF), qui construit, exploite, entretient et renouvelle le réseau public de distribution d'électricité sur le territoire du Bas-Rhin.

Jeudi matin, l'un des 2 câbles a été endommagé et le disjoncteur a coupé l'alimentation des datacentres. A priori, ce genre d'incident n'est pas anodin mais il n'est pas insurmontable. Si les groupes électrogènes installés dans les data centers d'OVH prennent le relais pour l'alimentation électrique avec l'appui d'onduleurs. Le temps qu'ELD reprennent la main sur le circuit électrique normal.

Mais OVH rencontre un gros hic : le système de basculement motorisé n'a pas fonctionné. Les équipes d'OVH cherchent à comprendre l'origine de ce dysfonctionnement. « C'est toutefois un défaut qui aurait dû être détecté lors des tests périodiques de simulation de défaut sur la source externe », évoque Octave Klaba.

Une anomalie qui aurait dû être perçue lors des procédures de vérification des équipements de secours (effectuées régulièrement) et des tests de reprise (le dernier effectué sur le site de Strasbourg remonte à mai 2017). « Et malgré tout, l'ensemble de ce dispositif n'a pas suffi aujourd'hui pour éviter cette panne », admet le fondateur d'OVH.

Au-delà de la panne de l'automate tiers (et OVH en assume la responsabilité), Octave Klaba souligne une autre faiblesse plus structurelle liée à l'exploitation de l'infrastructure localisée à Strasbourg : « Le réseau électrique de SBG a hérité des imperfections de design liées à la faible ambition initialement prévue pour le site ».

Retour en 2012 : pour se lancer à Strasbourg , OVH s'appuie sur un concept interne de nouvelle technologie de déploiement de datacentres, basée sur les containers maritimes. Avantage du dispositif : sa flexibilité.

« Nous avons voulu avoir la souplesse de déployer un datacentre sans les contraintes de temps liées aux permis de construire. A l'origine, nous voulions avoir la possibilité de valider nos hypothèses avant d'investir durablement dans un site », explique Octave Klaba sur un ton didactique.

C'est ainsi que 8 containers maritimes ont été déployés sur place pour une mise opérationnelle rapide en deux mois. Ultérieurement, deux autres data centers locaux sont implémentés mais sur la technologie de « Tour » plus robuste.

Mais c'est justement le maintien de cette cohabitation de configurations d'exploitation de data centers qui a mal tourné pour le cas OVH, dont le développement en hyper croissance en France et dans le monde n'est pas toujours évident à superviser en prenant en compte les spécificités de sites locaux comme celui de Strasbourg.

« Le problème est qu'en déployant SBG1 [le premier site datacenter de Strasbourg, ndlr] avec la technologie basée sur les containers maritimes, nous n'avons pas préparé le site au large scale », commente Octave Klaba.

Il évoque « 2 erreurs » : les normes d'arrivées d'électricité non réactualisées et le non-renforcement de la protection du réseau électrique avec la montée en charge de l'activité du site .

C'est une exception qui lui a joué des tours : « Chez OVH, chaque numéro de datacentre veut dire que le réseau électrique est indépendant d'un autre datacentre. Partout sauf sur le site de Strasbourg. »

La journée de jeudi a été intense chez OVH avec une cellule de crise au siège à Roubaix et des équipes de maintenance nomades et locales en charge de remettre l'infrastructure en marche (une cinquantaine de personnes), avec du renfort en provenance de l'Allemagne.

« Les équipes sont toujours en train de travailler sur la remise en route des derniers clients impactés. Une fois l'incident clos, nous appliquerons les SLA prévus dans nos contrats », déclare Octave Klaba dans sa contribution nocturne après une rude journée.

Pour réactualiser l'infrastructure des data centers en lien avec l'alimentation électrique, le fondateur d'OVH évoque « un plan d'investissement de 4-5 millions d'euros » au nom de la « restauration de la confiance envers OVH », tout en s'excusant à nouveau pour la gêne occasionnée à ses milliers de clients affectés.

Roubaix : un bug software sur les équipements optiques

Parallèlement à l'incident de Strasbourg, OVH a dû gérer un deuxième cas d'urgence sur le réseau optique qui interconnecte le site de Roubaix avec 6 des 33 points de présence (POP) dispersés entre Paris, Francfort, Amsterdam, Londres et Bruxelles.

De manière synthétique, il s'agit « d'un bug software sur les équipements optiques », évoque Octave Klaba, dans sa deuxième contribution post-fin d'alerte.

« Nous allons travailler avec l'équipementier pour trouver l'origine du problème et les aider à fixer le bug. Nous ne remettons pas en cause la confiance avec l'équipementier, même si ce type de bug est particulièrement critique. »

A priori, le fondateur d'OVH fait référence à son équipementier réseau partenaire Cisco (sans le citer).

Mais OVH doit aussi se poser des questions sur ce bug. « Il y a forcement une erreur chez Ovh puisque malgré tous les investissements dans le réseau, dans les fibres, dans les technologies, nous venons d'avoir 2 heures de downtime sur l'ensemble de nos infrastructures à Roubaix. »

Là aussi, des travaux de reconfiguration avec 2 systèmes de noeuds optiques au lieu d'un seul vont être lancés à grande échelle.

« Nous pourrons commencer les travaux de configuration et migration sous 2 semaines. Vu l'incident d'aujourd'hui, ce projet devient prioritaire, pour l'ensemble de nos infrastructures, tous les DCs, tous les POPs. »

Il est prévu que l'application des engagements SLA vis-à-vis des clients soit aussi enclenchée sur ce volet.

Lire aussi : F5 Networks chercherait un repreneur

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

OVH : les enseignements techniques de la sale journée en data centers

Strasbourg : pourquoi le système électrique a failli (bonus réflexion sur le mode hyper-croissance d'OVH)

Roubaix : un bug software sur les équipements optiques

Cloud et logiciels : le poids économique de la dépendance aux USA

VMware relance une version gratuite d'ESXi

Google Cloud Next '25 : l'inférence, maître mot des annonces infra

Health Data Hub : le gouvernement promet un appel d'offres pour [...]

"Nous avons quitté le cloud" : S3, ultime étape d'un retour sur site

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Strasbourg : pourquoi le système électrique a failli (bonus réflexion sur le mode hyper-croissance d'OVH)

Roubaix : un bug software sur les équipements optiques

S’abonner

Partager l'épisode