Modern Data Stack : la migration accélère vers le Data Warehouse as a Service
Un vent de renouveau souffle sur les infrastructures data. Nouvelles technologies, nouveaux services Cloud, mais aussi nouvelles approches, les entreprises modernisent leurs infrastructures data. L'essor de l'IA générative les pousse à accélérer le mouvement, avec un mouvement généralisé vers le Data Warehouse as a Service (DWaaS).

20 ans après la révolution Big Data, les infrastructures ont vieilli et, surtout, les cas d'usage de la data se sont multipliés. L'IA et l'IA générative sont dans toutes les discussions des ComEx et à l'agenda des directions du digital. Les DSI doivent suivre et proposer des architectures à la hauteur des enjeux, mais aussi une gouvernance capable de faire face aux besoins d'agilité et de rapidité exigés par les métiers.
Si, aux débuts du Big Data, on a souhaité bénéficier au maximum de la liberté apportée par Hadoop et la capacité de stocker pratiquement toutes les données et ne réfléchir aux cas d'usage que dans un deuxième temps. Cette approche a rapidement montré ses limites. « La bulle du Big Data s'est avérée être un échec » déplore Pierre-Yves Bonnefoy, cofondateur d'Olexya. « 80 % des projets n'ont pas délivré la valeur attendue. Les initiatives étaient très désorganisées et basées sur des technologies pas encore matures. »
1 Une nouvelle génération de solutions
Depuis, une nouvelle génération de solutions est apparue sur le marché, à commencer par BigQuery de Google Cloud et ses équivalents chez AWS et Azure, puis des solutions de Data Warehouse as a Service, dont le succès est aujourd'hui significatif. « Toutes les technologies issues du Big Data ont aujourd'hui été encapsulées par les fournisseurs de cloud au sein de leurs offres managées, mais aussi via des éditeurs tiers » explique l'expert. « Databricks et Snowflake se servent des fournisseurs de cloud pour délivrer des solutions, mais qui restent basées sur leurs propres technologies. AWS avec S3, Databricks avec HDFS et Spark s'appuient sur ces technologies Big Data aujourd'hui bien maîtrisées et encapsulées de manière à être invisibles des équipes techniques. »
Pour Pierre-Yves Bonnefoy, les formats de données ouverts comme Apache Parquet, Delta Lake et Apache Iceberg jouent également un rôle crucial dans cette modernisation, en permettant un stockage performant et une interopérabilité accrue entre les différentes plateformes.
Ces plateformes et les services managés des hyperscalers couvrent aujourd'hui une grande palette des cas d'usage de la Data, y compris avec des services de Machine Learning et de Generative AI. Les LLM apportent une nouvelle façon de naviguer dans les données pour les métiers, pour peu que l'équipe Data ait bien catalogué et documenté ses données.
2 Des architectures Data plus industrialisées
En parallèle, les approches dbt et médaillon, cette dernière fortement poussée par Databricks, s'imposent peu à peu. « Ces approches sont fortement inspirées de Kimball, une méthode très utilisée pour modéliser les Data Warehouse, mais apportent le meilleur des deux mondes : pouvoir gérer d'énormes quantités de données, tout en permettant de les organiser. » Médaillon divise l'espace de stockage en 3 zones. Bronze assure le stockage des données brutes collectées dans le SI. Ces données sont traitées, consolidées et mises en qualité pour la zone Silver, Gold ne présentant que des données raffinées aux applications et aux utilisateurs métiers.
Avec, d'une part, des solutions de nouvelle génération et ces nouvelles architectures, les entreprises ont maintenant les moyens de traiter d'énormes volumes de données tout en disposant d'outils pour en donner accès au métier. Reste ensuite à traiter l'épineuse question de la dette technique et du décommissionnement des infrastructures Data accumulées depuis les années 90.
Pourquoi Danone adopte le modèle médaillon
Danone compte plus de 89 000 employés dans 55 pays qui constituent autant d'IT Hub. La plateforme Data doit faciliter le partage des données entre l'ensemble de ces entités. Yohan Baselto, Lead Data Engineer chez Danone détaille l'architecture de la plateforme avant sa récente modernisation : « Dans notre précédente architecture, nos cas d'usages analytiques étaient répartis entre Informatica, Azure Databricks et Snowflake. » Cette architecture présentait de nombreux challenges, notamment de gouvernance avec de multiples ETL en production. « La vision qui a dicté la mise en place de notre nouvelle plateforme était de disposer d'un Data Lake central pour réduire ces silos, favoriser le partage des datasets et encourager la réutilisation des assets disponibles. Enfin, nous souhaitions moderniser l'expérience utilisateur et maximiser l'automatisation via l'infrastructure as code. » La plateforme Databricks a été mise en place sur 3 hubs : un premier en Europe, le second en Amérique et une dernière pour la zone Asie-Pacifique, le tout sous une même infrastructure avec un Data Lake central et des DTU (Data Transformation Units) où les business peuvent ingérer leurs propres données et créer leurs propres process.
EDF SEI : Une migration d'Hadoop vers Google Cloud
EDF SEI (Systèmes Energétiques Insulaires) est l'entité qui gère tous les réseaux électriques des territoires français qui ne sont pas raccordés au continent. Cela représente 39 500 km de réseau, 1,2 million de clients pour une entité qui emploie 3 100 salariés. Dans le cadre de la transformation numérique d'EDF, le renouvellement de la plateforme Data bâtie par EDF SEI sur des technologies Hadoop a été lancé. « Nous avons étudié différents scénarios, dont poursuivre avec des technologies on-premise sur une autre distribution d'Hadoop ou aller vers Oracle Hexadata » explique Stéphanie Delaunay, Chief Data Officer chez EDF SEI. « Nous avons aussi évalué un scénario d'évolution vers les services managés Data du Cloud public afin de profiter de l'investissement colossal des grands Cloudeurs dans ces infrastructures. Le troisième scénario était de chercher une solution complémentaire de type Databricks ou Snowflake. » C'est finalement l'option Google Cloud qui a été choisie, dans une approche de type Brownfield, avec 144 cas d'usage à migrer. « Nous ne voulions pas maintenir deux plateformes en parallèle, donc nous avons migré l'existant en Lift and Shift, nous résorberons ensuite la dette technique. »
Pierre-Yves Bonnefoy, co-auteur de l'ouvrage « The Definitive Guide to Data Integration »
« Dans leur modernisation, certaines sont très matures, d'autres vont vers Médaillon à marche forcée. En effet, avec les outils qu'il intègre, Databricks est un package et on est rapidement bridé si on n'utilise pas Unity Catalog, le catalogue de données de la plateforme, Delta Lake, etc. Néanmoins, beaucoup d'entreprises ont beaucoup de mal à se séparer de leur legacy Data, des architectures anciennes qu'il est difficile de migrer. Cela explique le succès de Starburst, mais cela reste une dette technique qu'il sera difficile de résorber. La migration sera progressive et surtout, l'entreprise ne doit pas se contenter de créer des use case sur sa nouvelle infrastructure, mais doit se doter dès le départ d'une roadmap claire de décommissionnement de son legacy et s'y tenir jusqu'au bout. »
Sur le même thème
Voir tous les articles Data & IA