Désormais que nous avons un processus de certification de données, comment le mettre en œuvre à l’échelle d’un data warehouse ? Airbnb avait véritablement commencé à se poser la question en 2022.
Le processus en question, dénommé Midas, existe toujours. Airbnb l’avait introduit en 2020, en parallèle d’une refonte de ses modèles de données les plus critiques. Il a effectivement permis d’en augmenter la qualité… mais au prix d’investissements difficilement reproductibles à plus large périmètre.
Les producteurs de données demandaient eux-mêmes un process plus léger, capable de fournir certaines garanties de Midas avec moins de rigueur. La solution retenue fut un score de qualité, associé chaque asset. Non contraignant contrairement à Midas, mais conçu pour motiver les équipes à contribuer à la data quality. Tout en allant au-delà de la dichotomie certifié/non certifié.
Cinq principes ont guidé l’élaboration du score et de ses critères constitutifs : – Périmètre d’application (capacité à couvrir tout asset)
– Caractère automatisable
– Facilité à exploiter
– Aspect multidimensionnel (capacité à le décomposer en piliers de data quality)
– Évolutivité des critères et de leur définition
Airbnb s’est finalement arrêté sur quatre critères :
> Précision (40 points)
> Fiabilité (existence de SLA et respect de ces SLA ; 15 points)
> Administration (pipeline de maintenance, validité des paramètres de conservation, etc. ; 30 points)
> Usabilité (documentation du dataset, description des tables et des colonnes ; 15 points)
Airbnb a choisi de faire remonte ce score dans son catalogue central de métadonnées, puis de l’afficher au sein de son Dataportal, point de départ de ses équipes pour la découverte et l’exploration de données. Il le présente de manière à le rendre utile et compréhensible par un maximum de populations.
Le data quality score a récemment fait l’objet d’une extension, pour couvrir Minerva, la plate-forme de métriques interne. Prochaine étape : les journaux d’événements et le feature engineering.
Illustration principale © TensorSpark – Adobe Stock
Dans un avis consultatif, l'Autorité de la concurrence a identifié les risques concurrentiels liés à…
OpenAI signe un « partenariat de contenu stratégique » avec Time pour accéder au contenu…
Au lendemain du rejet de sa proposition de restructuration, David Layani annonce sa démission du…
Après un an, Hugging Face a revu les fondements de son leaderboard LLM. Quels en…
Mozilla commence à expérimenter divers LLM dans Firefox, en parallèle d'autres initiatives axées sur l'intégration…
VMware met VCF à jour pour y favoriser la migration des déploiements qui, sur le…