Au coeur des pannes de SSD des datacenters de Facebook

Une étude a montré les problèmes rencontrés par les mémoires flash déployées à grande échelle dans les datacenters. Ceux de Facebook ont servi de modèles pour les travaux de recherche.

Publié par Jacques Cheminat le 18 juin 2015 | Mis à jour le 31 déc. 2021 à 12:33

Lecture
3 min

Imprimer

Si on connaît la croissance des ventes des SSD dans le monde et les bénéfices en matière de performance, leur comportement au sein d'un datacenter était peu analysé. C'est chose faite avec une étude « à grande échelle des défaillances des mémoires flash » menée par des chercheurs de l'Université Carnegie Mellon (Justin Meza et Onur Mutlu) et des salariés de Facebook (Qiang Wu et Sanjeev Kumar). Le choix du réseau social n'est pas anodin. Facebook est un pionnier dans les technologies flash en pariant notamment sur les cartes PCIe de Fusion-IO (depuis racheté par SanDisk).

Sur le plan méthodologique, les SSD utilisés sont classés par ancienneté (1ere et seconde génération), mais par contre il n'y a pas de comparaison en fonction des constructeurs. Pour leurs tests, ils ont étudié différentes caractéristiques des SSD : volume de données écrites et lues depuis la puce flash, comment la donnée est référencée dans le plan d'adressage du SSD, la quantité de données copiées, effacées et jetées par le contrôleur, la température et l'alimentation du bus.

Une sensibilité à la chaleur et gourmand en énergie

Les résultats de cette étude montrent plusieurs causes de défaillances sur la technologie flash utilisée intensivement et à grande échelle. Ainsi sur la température, les SSD sont plus sensibles à ce paramètre que les disques durs traditionnels. En effet, la chaleur impacte leur performance et augmente le taux d'échec. Les chercheurs constatent que des techniques de ralentissement opérationnel des SSD peuvent compenser les effets de la chaleur. Dans l'étude, les SSD de première génération ont été le plus touchés en l'absence de ces techniques de compensation.

Sur la partie consommation énergétique, les SSD sont gourmands avec des pics de 8 à 14,5 W pour les SSD de 2^ème génération en raison des fréquences plus élevées. L'étude montre une corrélation entre cette consommation et la température au point de proposer que l'alimentation du bus serve de proxy pour ajuster les performances du SSD en fonction de la chaleur et réduire ainsi les erreurs.

Des imperfections habituelles et des problèmes d'adressage

Autre enseignement du rapport, le taux d'échec des SSD n'augmente pas de manière linéaire avec l'usure des puces flash. Ces défaillances sont très variables en fonction de plusieurs paramètres leur apparition et leur détection. Par ailleurs, le niveau d'écriture est corrélé avec les taux d'échec, car une écriture intensive demande de la puissance. Les chercheurs recommandent notamment pour les applications gourmandes en écritures de privilégier les disques durs traditionnels.

Les défaillances de SSD sont relativement habituelles, 99,8% des SSD rapportent des erreurs non corrigées (qui entraînent des pertes de données) dès la première semaine et une autre la semaine d'après. Enfin, dernier élément, l'implantation des données (notamment les données non-contigües), via le plan d'adressage du SSD, rentre en conflit avec la translation d'adressage de la mémoire tampon (DRAM) interne au SSD.

Les SSD de 6 To arrivent bientôt
HGST Ultrastar SN100 : des SSD PCI Express NVMe pour datacenters
Intel livre des SSD PCI Express à moins de 1 dollar le Go

Publié par :
Jacques Cheminat

Tags associés :

#FACEBOOK

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Au coeur des pannes de SSD des datacenters de Facebook

Une sensibilité à la chaleur et gourmand en énergie

Des imperfections habituelles et des problèmes d'adressage

crédit photo © dotshock - shutterstock

Heroku devient un PaaS Kubernetes

Platform engineering : l'expérience de Believe pour le [...]

VMware : infléchissements et concessions chez Broadcom

DevOps : comment TheFork a assaini son process de déploiement

Cloud : Microsoft face à un procès pour une surfacturation [...]

Simplifiez la gestion IT de votre PME grâce au modèle [...]

La situation en matière de gestion des risques liés à [...]

Téléphonie dans Microsoft Teams : Quelle solution [...]

Sprinklr nommé Leader dans The Forrester Wave™: [...]

La MasterClass Silicon - NIS2

La Matinale Silicon : IA & Cybersécurité

Le grand dîner de gala de la Communauté