Pour gérer vos consentements :
Categories: Data & Stockage

Data quality : comment Airbnb est passé à l’échelle

Désormais que nous avons un processus de certification de données, comment le mettre en œuvre à l’échelle d’un data warehouse ? Airbnb avait véritablement commencé à se poser la question en 2022.

Le processus en question, dénommé Midas, existe toujours. Airbnb l’avait introduit en 2020, en parallèle d’une refonte de ses modèles de données les plus critiques. Il a effectivement permis d’en augmenter la qualité… mais au prix d’investissements difficilement reproductibles à plus large périmètre.

Les producteurs de données demandaient eux-mêmes un process plus léger, capable de fournir certaines garanties de Midas avec moins de rigueur. La solution retenue fut un score de qualité, associé  chaque asset. Non contraignant contrairement à Midas, mais conçu pour motiver les équipes à contribuer à la data quality. Tout en allant au-delà de la dichotomie certifié/non certifié.

La précision comme premier critère

Cinq principes ont guidé l’élaboration du score et de ses critères constitutifs : – Périmètre d’application (capacité à couvrir tout asset)
– Caractère automatisable
– Facilité à exploiter
– Aspect multidimensionnel (capacité à le décomposer en piliers de data quality)
– Évolutivité des critères et de leur définition

Airbnb s’est finalement arrêté sur quatre critères :

> Précision (40 points)
> Fiabilité (existence de SLA et respect de ces SLA ; 15 points)
> Administration (pipeline de maintenance, validité des paramètres de conservation, etc. ; 30 points)
> Usabilité (documentation du dataset, description des tables et des colonnes ; 15 points)

Airbnb a choisi de faire remonte ce score dans son catalogue central de métadonnées, puis de l’afficher au sein de son Dataportal, point de départ de ses équipes pour la découverte et l’exploration de données. Il le présente de manière à le rendre utile et compréhensible par un maximum de populations.

Le data quality score a récemment fait l’objet d’une extension, pour couvrir Minerva, la plate-forme de métriques interne. Prochaine étape : les journaux d’événements et le feature engineering.

Illustration principale © TensorSpark – Adobe Stock

Recent Posts

IA générative : l’Autorité de la concurrence pointe de sérieux risques

Dans un avis consultatif, l'Autorité de la concurrence a identifié les risques concurrentiels liés à…

2 jours ago

OpenAI signe un accord de contenu avec Time

OpenAI signe un « partenariat de contenu stratégique » avec Time pour accéder au contenu…

2 jours ago

Atos : David Layani (Onepoint) veut sortir du capital

Au lendemain du rejet de sa proposition de restructuration, David Layani annonce sa démission du…

2 jours ago

Évaluer les LLM, un défi : le cas Hugging Face

Après un an, Hugging Face a revu les fondements de son leaderboard LLM. Quels en…

3 jours ago

Mozilla face au dilemme de la GenAI dans Firefox

Mozilla commence à expérimenter divers LLM dans Firefox, en parallèle d'autres initiatives axées sur l'intégration…

3 jours ago

VMware tente d’orienter vers VCF les déploiements pré-Broadcom

VMware met VCF à jour pour y favoriser la migration des déploiements qui, sur le…

4 jours ago