BluData : comment Auchan bâtit son bras armé Big Data
Mieux exploiter les monceaux de données que récupère un groupe de distribution de la taille d'Auchan. C'est la raison d'être de BluData, une entité dédiée au Big Data créée il y a environ un an. « On collecte environ 2,5 milliards de tickets de caisse par an dans le groupe, illustre Olivier Girard, qui dirige cette entité (il est aussi directeur marketing client et data d'Auchan retail international). Et nos données sont insuffisamment exploitées. » Pour aller de l'avant, BluData a bénéficié du sponsoring de Vianney Mulliez, le patron du groupe Auchan. Indispensable dans un groupe présent dans 14 pays privilégiant l'autonomie de ses filiales. « Chaque pays a une façon de collecter les données qui lui est propre, dit Olivier Girard (en photo ci-dessus), qui a détaillé son expérience lors du salon Big Data Paris (les 7 et 8 mars au Palais des Congrès). L'harmonisation des données était donc un véritable défi. »
Pas question pour autant de se lancer dans la construction d'une usine à gaz, la démarche se veut avant tout pragmatique, insiste le directeur de BluData, une entité du groupe regroupant aujourd'hui une trentaine de personnes, contre une dizaine à sa naissance. « Nous nous sommes concentrés sur les sujets où on pouvait aller vite : valeur ajoutée métier et time-to-market ont guidé notre action. On utilise d'ailleurs assez peu le terme Big Data en interne », glisse Olivier Girard. Logiquement dans un groupe de distribution, l'accent est mis sur la compréhension du parcours client (afin d'aller vers davantage d'individualisation), sur la définition des offres, sur la disponibilité des produits ou encore sur la compréhension des besoins en personnel dans les surfaces de vente. En s'assurant de bénéficier du bon niveau de sponsoring dans les métiers. « Nous avons retardé certains projets à cause de ce facteur », reprend le directeur de BluData.
Des forts en maths qui parlent métier ? Voire
Pour se construire, BluData a regroupé des savoir-faire déjà présents dans le groupe, notamment au sein des équipes marketing. « Créer une aventure comme celle-là en partant de zéro est de toute façon impossible », assure Olivier Girard, qui se réjouit aujourd'hui de ne pas s'être précipité dans la quête de profils de data scientist omniscients. « Imaginer recruter des forts en maths qui parlent la langue des métiers est illusoire. Pour ce type de structures, on a surtout besoin de personnes travaillant en complémentarité. Bien sûr, les métiers de l'analyse de données évoluent, mais, en ce qui nous concerne, la compréhension de la distribution reste centrale ».
D'emblée, BluData s'inscrit dans une logique de prototypage et d'industrialisation des scénarios les plus prometteurs. « Pour ce faire, nous avions besoin d'une plate-forme technique », remarque son dirigeant. Sur la recommandation d'Ysance - prestataire qui est intervenu tant dans l'accompagnement de la naissance de BluData que dans les phases projets qui ont suivi jusqu'à la prise en main des environnements par les équipes du distributeur -, Auchan a bâti un datalake (un cluster Hadoop sur base MapR), en production depuis environ 6 mois sur le Cloud. Celui-ci intègre dans un premier temps les données disponibles dans les bases maison : tickets de caisse, référentiels produits et magasins, données de fidélité, stocks mais aussi données de navigation issues du site Web. Le groupe réfléchit maintenant à l'association de ces informations avec des données externes, par exemple issues de l'Open Data.
Comme l'explique Olivier Girard dans un entretien avec Silicon.fr, « par rapport aux solutions passées, le Big Data apporte la faculté à trouver des retours sur investissement rapides. Car nous connaissions les scénarios métier intéressants et les algorithmes à mettre en oeuvre. Mais, avec des technologies traditionnelles, le coût de ces solutions était dissuasif. » Notons que, si BluData exploite le Machine Learning, Olivier Girard entend garder le contrôle sur les techniques de calcul et éloigne l'hypothèse d'une « boîte noire qui auto-sélectionnerait des algorithmes ».
Le datalake ne suffit pas à BluData
« Le datalake nous donnait l'impression d'une solution miracle, se remémore Olivier Girard. On a un peu déchanté, car cette technologie ne suffit pas : elle doit être accompagnée de briques spécifiques aux usages. Dans la démarche, il faut savoir ne pas brûler les étapes : l'analytique Big Data reste une conduite du changement. » Un point que reconnaît volontiers Romain Chaumais, le co-fondateur d'Ysance : « C'est vrai, le datalake ne suffit pas, il permet l'industrialisation de l'activation de la donnée. Pour aller plus loin, il faut lui greffer ce qu'on appelle des lakeshore, des extractions orientées métier ou usages. » Extractions qui peuvent être réalisées dans de multiples technologies, comme Spark, Impala, SQL, HBase ou encore Cassandra. Finalement, si les appellations ont changé, l'architecture n'est pas sans rappeler celle qui voyait le datawarehouse cohabiter avec des datamarts.
Aujourd'hui, les premières applications de BluData sont entrées en production, comme la personnalisation des promotions, qui touche déjà 2 millions de clients. La prédiction des ventes doit passer en mode pilote industriel tout prochainement. Elle visera tant à éviter les ruptures de produits, qu'à optimiser la chaîne logistique dans son ensemble. La filiale Big Data du retailer prévoit aussi d'étendre sa collecte de données : à ce jour, son datalake ne couvre pas encore les 14 pays où le groupe est présent.
A lire aussi :
Big Data : le Machine Learning protège les Livebox Orange de la foudre
Big Data : Mappy accélère son cluster Hadoop. sans acheter de serveurs
Mike Olson, Cloudera : « dans Hadoop, temps réel et batch sur les mêmes données »
Sur le même thème
Voir tous les articles Data & IAPar Clément Bohic
Par Clément Bohic
Par Clément Bohic
Par La rédaction