Tribune Big Data : hors Hadoop, point de salut

En moins de quatre ans, le framework open source Hadoop est devenu hégémonique sur les solutions de type Map Reduce, étouffant toute concurrence propriétaire. Une tribune signée Romain Chaumais d'Ysance.

Publié par La rédaction le 21 mars 2012 | Mis à jour le 2 mars 2021 à 15:50

Lecture
3 min

Imprimer

Romain Chaumais, cofondateur d'Ysance et responsable de son pôle business intelligence, retrace pour nous l'historique du Big Data, expliquant par la même occasion comment une solution open source, Hadoop, a pu s'imposer sur ce marché.

Le monde des moteurs de traitement de données de type Big Data a déjà bien changé, depuis ses récents débuts. Il y a peu, celui-ci était globalement scindé en deux. D'un côté, les moteurs spécialisés qui offrent une optimisation maximale, via une structuration et un stockage des données en colonnes par exemple, et permettent des requêtes analytiques ensemblistes propices aux applications de type décisionnel. Ce sont les « coupés sport » de la base de données, composés d'acteurs tels que Sybase IQ, Vertica, Infobright, Vectorwise, Calpont.

De l'autre côté, les moteurs de traitement de données de type Appliance MPP (Massive Parallel Procesing) qui sont davantage adaptés aux grands datawarehouses d'entreprise pour des usages aussi bien transverses que métiers (EDW). Ils centralisent le patrimoine d'informations de l'entreprise et autorisent une organisation des données relativement souple. Ce sont les « semi-remorques » de la base de données, certes plus puissants, mais moins abordables que les moteurs spécialisés. S'y côtoient Teradata, Oracle (Exadata), ou encore IBM (Netezza).

Si ces deux approches répondent à des usages bien réels, elles peinent à traiter la jungle des données structurées et non structurées désormais produites : commentaires sur les réseaux sociaux, mobilité, machine-to-machine, trafic web. Stratégique pour l'entreprise, cette masse croissante d'informations recèle une réelle valeur économique, mais dépasse très largement la capacité des moteurs de traitement traditionnels. Autrement dit, ces derniers ne sont déjà plus adaptés à la gestion intensive de pétaoctets de données. C'est là qu'interviennent les frameworks de type Map Reduce, dont l'approche consiste à explorer, puis à révéler des données chaudes, brutes et potentiellement non structurées. Au prix d'une moindre performance par CPU et d'une relative inertie dans les traitements, la quantité de données traitables est ici démultipliée à l'infini (cf. schéma 1), comme une motrice dont on pourrait accrocher autant de wagons qu'on le souhaite.

Ce nouveau monde est bien différent des deux précédents. Alors que plusieurs éditeurs se partagent historiquement le marché des moteurs de traitement de données de type SGBD, Hadoop s'impose d'ores et déjà comme le principal et incontournable moteur de type Map Reduce. Rappel des faits. En 2008, Google publie l'algorithme de son framework Map Reduce, dont Yahoo propose un clone open source. Hadoop est né. Ce moteur, qui fonctionne sur un système de fichiers répartis sur plusieurs machines physiques (HDFS), reprend les grands principes de l'algorithme Map Reduce en Java.

Publié par :
La rédaction

Tags associés :

#HADOOP

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Tribune Big Data : hors Hadoop, point de salut

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

S’abonner

Partager l'épisode