Carrefour pilote les transferts de données avec le Serverless

Le groupe Carrefour compte 100 millions de clients dans 31 pays, ce qui représente une masse de 3 milliards de tickets de caisse par an. Des données que Carrefour Links centralise grâce au Serverless afin de les commercialiser auprès des industriels.

Publié par Alain Clapaud le 18 oct. 2023 | Mis à jour le 20 oct. 2023 à 16:45

Lecture
4 min

Imprimer

Carrefour Links a été créé en 2021 afin de commercialiser les données du groupe à destination des industriels du CPG (« Consumer Packaged Goods », biens de consommation emballés) comme Coca-Cola, Nestlé, L’Oréal.

Le groupe Carrefour se compose de huit pays intégrés et de 23 pays franchisés. Pour alimenter le data lake de Carrefour Links, il faut collecter les données auprès de chacun de ces pays.

Guillaume Blaquiere – Group Data Architect chez Carrefour

« Ce sont des milliards de lignes de tickets de caisse qu’il faut décomposer en produits, puis ensuite rassembler par CPG » résume Guillaume Blaquiere, Group Data Architect chez Carrefour. « C’est un gros chantier, car nous avons aujourd’hui 7 Po de données sur Google BigQuery et lorsqu’il est nécessaire d’effectuer un Full Refresh de notre data lake, ce sont 72 Po de données qu’il faut traiter. »ajoute-t-il.

Or chaque pays fédéré dispose de son propre Data Warehouse et la synchronisation quotidienne ne peut démarrer avec un pays qu’à partir du moment où celui-ci a achevé le chargement des tickets de caisse de la journée.

Un Data Lake et un scheduler pour exécuter le code

Au moment de la création du data lake, un « scheduler » (module choisissant l’ordre d’exécutiuon des tâches) a été mis en place afin d’exécuter le code venant récupérer les données en mode séquentiel, avec des traitements qui ne s’achevaient que vers 7/8 heures du matin.

« Une telle approche n’est pas scalable car on fait de plus en plus de traitements. Nous avons donc voulu lancer les chargements en parallèle. Cela a permis de réduire les temps de traitement et achever les traitements vers 5 heures du matin. »précise Guillaume Blaquiere.

L’application PoS et Data Shopper proposée par Carrefour Links permet à l’industriel d’analyser la performance commerciale de ses produits marché par marché sur plus de 6 milliards de transactions stockées.

L’équipe technique a mis en œuvre la solution DBT ( Data Build Tool ) pour lancer de multiples requêtes en parallèle, puis attendre la fin de celles-ci pour finaliser la table de destination.

L’inconvénient de l’approche est de perdre du temps entre la phase Fan In (collecte des données) et Fan Out (constitution du « Data Mart » [comptoir de données à des fins précises]), car un délai est nécessaire au cas où un pays mettrait ses données à disposition plus tardivement.

Aller vers un système événementiel

L’équipe technique souhaite aller vers un système événementiel, avec une notification lorsque la synchronisation de données s’achève, avec l’envoi d’un message sur le bus Google Cloud Pub/Sub.

« Le message va invoquer un Cloud Run [solution Serverless à base de conteneurs de Google Cloud Platform] qui va ensuite dérouler l’ensemble des process que nous avions précédemment. Cela nous permet d’achever les traitements plus tôt, vers 4 heures du matin. Cela nous donne le temps de rejouer des traitements le matin en cas d’incident. » détaille Guillaume Blaquiere.

L’architecture suppose que le scheduler se mette en attente à partir de 22 heures, mais il est difficile de savoir si les données sont prêtes ou pas.

Au sein du groupe, chaque pays a une maturité différente vis-à-vis de la donnée. En France, les tickets sont chargés 2-3 minutes après le passage en caisse, alors que le Brésil met à jour sa base de données vers 22 heures et l’Espagne exploite une plateforme Cloudera, ce qui les oblige à faire une extraction sur BigQuery pour que les données puissent être lues par la maison-mère.

Implémentation de EventSync sur GCP

Chaque pays étant indépendant, il est impossible d’imposer un même scheduler pour tous. Les pays envoient un événement lorsqu’ils ont terminé les traitements de leur côté, pour que les traitements puissent démarrer en central lorsque tous les pays ont envoyé leur message.

« Sur GCP [Google Cloud Platform], cela n’existe pas. J’ai donc implémenté sur GCP un outil open source baptisé EventSync. Il exploite Cloud Run pour la partie runtime, FileStore pour le stockage et Google Cloud Pub/Sub pour envoyer les messages. Chaque pays peut ainsi déclencher les traitements quand il le souhaite, dispose d’une URL de notification statique et va envoyer le message de disponibilité des données sur le bus de message. » décrit Guillaume Blaquiere.

L’ensemble des briques d’infrastructures sont gérées par Google en mode Serverless et l’application est sécurisée avec Cloud Identity and Access Management (IAM).

Publié par :
Alain Clapaud

Tags associés :

#SERVERLESS

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Carrefour pilote les transferts de données avec le Serverless

Un Data Lake et un scheduler pour exécuter le code

Aller vers un système événementiel

Implémentation de EventSync sur GCP

Google Cloud Next '25 : l'inférence, maître mot des annonces infra

Health Data Hub : le gouvernement promet un appel d'offres pour [...]

"Nous avons quitté le cloud" : S3, ultime étape d'un retour sur site

50 ans de Microsoft : les sept vies de l'inventeur de Windows

OUTSCALE lance son Kubernetes managé : ce qu'il y a pour commencer

S’abonner

Les stations de travail dédiées à votre métier

Future of Work – Transformer le support et [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Un Data Lake et un scheduler pour exécuter le code

Aller vers un système événementiel

Implémentation de EventSync sur GCP

S’abonner

Partager l'épisode