Hadoop est en passe de détrôner le datawarehouse traditionnel

Plus mûr, enrichi de nouvelles fonctions, adoubé par l'industrie IT, Hadoop est désormais prêt à remplacer les entrepôts de données traditionnels. D'autant qu'il offre davantage de capacités à un prix cinq fois inférieur, estime Romain Chaumais, co-fondateur et directeur des opérations du cabinet de conseil en technologies Ysance.

Publié par La rédaction le 24 mars 2014 | Mis à jour le 2 mars 2021 à 14:00

Lecture
4 min

Imprimer

Nous le pressentions il y a 2 ans. Nous en sommes aujourd'hui intimement convaincus, preuves à l'appui : le Big Data, et, en particulier l'environnement Hadoop, fait désormais jeu égal avec les entrepôts de données traditionnels. Prix, avancées technologiques, simplification de la prise en main. Rien ne s'oppose désormais à ce que ce nouveau socle analytique remplace les datawarehouse historiquement déployés dans les entreprises pour des besoins décisionnels. D'ailleurs nombre d'entreprises ont d'ores et déjà franchi le pas, parmi lesquelles certains de nos clients.

Comment expliquer qu'une technologie encore inconnue du grand public il y a quelques années menace des architectures vieilles de plusieurs décennies ? Première raison : Hadoop, avec son écosystème, respecte aujourd'hui la plupart des exigences d'intégration avec les systèmes d'information. Les distributions Hadoop proposent aujourd'hui les outils indispensables aux équipes d'administration pour sécuriser l'accès aux données, gérer l'allocation des ressources, automatiser les sauvegardes et monitorer le bon fonctionnement de l'ensemble. Mais si Hadoop gagne aujourd'hui ses galons de plateforme d'entreprise, c'est aussi et surtout pour sa nouvelle réactivité.

Jusque-là, la star des technologies Big Data ne supportait que le mode batch. La plus petite des opérations prenait plusieurs minutes. Impossible, dès lors, de rivaliser avec les datawarehouse qui traitent les requêtes décisionnelles à la volée (calculs de chiffre d'affaires, de marges ou de prévisions). Or, avec des projets tels que Yarn, Impala, Spark, Drill ou Presto, les plateformes Hadoop s'ouvrent désormais aux requêtes interactives et instantanées. De même, avec Storm et Kenesis, elles capturent et analysent au fil de l'eau les données transitant dans les flux. Hadoop met ainsi un pied dans le temps réel. Enfin, lorsqu'il est associé à une brique Elasticsearch ou Solr, il se mue en moteur de recherche à la capacité d'indexation quasi infinie.

Plus de capacités, pour moins cher

Stockage, traitement massif, requête interactive, requête transactionnelle, outil de recherche. Hadoop n'a donc plus rien à envier aux datawarehouse. D'autant que la plateforme se montre parfaitement compatible avec les outils de transformation et d'intégration de données, d'une part, et avec les applications de reporting, d'analyse prédictive et de visualisation, d'autre part.

Autre argument de taille censé faire pencher la balance : le prix. À en juger par les déploiements de nos clients, un projet Hadoop est en moyenne cinq fois moins cher qu'un datawarehouse classique. Ce chiffre comprenant le matériel, le logiciel et le déploiement de l'infrastructure. Sans compter qu'une plateforme Big Data stocke environ cinq fois plus d'informations qu'un datawarehouse traditionnel. Aux données de ventes, sont en effet associées toutes les informations relatives aux comportements des clients en magasin, sur le web ou les réseaux sociaux, etc.

Un accès facilité à la techno

Enfin, si ce n'était pas le cas en 2010, Hadoop est aujourd'hui devenu LA référence du Big Data. De quoi sécuriser au maximum les investissements consentis par les entreprises. Les communautés open source l'ont totalement adopté, notamment la fondation Apache. Même les géants de l'infrastructure s'y rangent (IBM, Microsoft, Oracle, etc). Et sur le terrain, la plupart des grands groupes le testent et envisagent de le mettre en production prochainement. Ces derniers doivent être rassurés : cette technologie est pérenne. Open source, elle n'est « enfermée » par aucun éditeur et jouit d'un écosystème très riche, très actif et très productif.

Se pose pourtant, diront certains, la question des compétences. Peu de profils, en effet, sont à même de déployer ces plateformes et d'investiguer les données qui y sont stockées. C'est vrai, mais là encore, ce frein tend à se résorber. De plus en plus d'outils (en particulier ceux issus des projets évoqués plus haut) n'exigent plus de compétences spécifiques en matière de programmation parallèle. Ils tendent à être accessibles par les personnes qui, dans les entreprises, gèrent déjà le décisionnel et exploitent les bases de données.

Pour autant, la fin des datawarehouse n'est pas pour tout de suite. Culture du changement oblige, les deux socles analytiques devraient cohabiter encore longtemps. Mais l'on ne voit pas comment et pourquoi les organisations continueraient à payer le prix fort pour des analyses qui, à terme, seront accessibles à moindre coût via une plateforme incommensurablement plus riche et plus ouverte.

En complément, sur le même sujet :

Pourquoi NoSQL s'impose face aux SGBDR traditionnelles (avis d'expert)

Publié par :
La rédaction

Tags associés :

#HADOOP

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Hadoop est en passe de détrôner le datawarehouse traditionnel

Plus de capacités, pour moins cher

Un accès facilité à la techno

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Plus de capacités, pour moins cher

Un accès facilité à la techno

S’abonner

Partager l'épisode