Data quality : comment Airbnb est passé à l'échelle
Publié par Clément Bohic le | Mis à jour le
Dans la continuité de son framework de certification des données critiques, Airbnb a automatisé le processus pour ses autres assets.
Désormais que nous avons un processus de certification de données, comment le mettre en œuvre à l’échelle d’un data warehouse ? Airbnb avait véritablement commencé à se poser la question en 2022.
Le processus en question, dénommé Midas, existe toujours. Airbnb l’avait introduit en 2020, en parallèle d’une refonte de ses modèles de données les plus critiques. Il a effectivement permis d’en augmenter la qualité… mais au prix d’investissements difficilement reproductibles à plus large périmètre.
Les producteurs de données demandaient eux-mêmes un process plus léger, capable de fournir certaines garanties de Midas avec moins de rigueur. La solution retenue fut un score de qualité, associé chaque asset. Non contraignant contrairement à Midas, mais conçu pour motiver les équipes à contribuer à la data quality. Tout en allant au-delà de la dichotomie certifié/non certifié.
La précision comme premier critère
Cinq principes ont guidé l’élaboration du score et de ses critères constitutifs : – Périmètre d’application (capacité à couvrir tout asset)
– Caractère automatisable
– Facilité à exploiter
– Aspect multidimensionnel (capacité à le décomposer en piliers de data quality)
– Évolutivité des critères et de leur définition
Airbnb s’est finalement arrêté sur quatre critères :
> Précision (40 points)
> Fiabilité (existence de SLA et respect de ces SLA ; 15 points)
> Administration (pipeline de maintenance, validité des paramètres de conservation, etc. ; 30 points)
> Usabilité (documentation du dataset, description des tables et des colonnes ; 15 points)
Airbnb a choisi de faire remonte ce score dans son catalogue central de métadonnées, puis de l’afficher au sein de son Dataportal, point de départ de ses équipes pour la découverte et l’exploration de données. Il le présente de manière à le rendre utile et compréhensible par un maximum de populations.
Le data quality score a récemment fait l’objet d’une extension, pour couvrir Minerva, la plate-forme de métriques interne. Prochaine étape : les journaux d’événements et le feature engineering.
Illustration principale © TensorSpark – Adobe Stock