Pour gérer vos consentements :

Tribune Big Data : hors Hadoop, point de salut

Romain Chaumais, cofondateur d’Ysance et responsable de son pôle business intelligence, retrace pour nous l’historique du Big Data, expliquant par la même occasion comment une solution open source, Hadoop, a pu s’imposer sur ce marché.

Le monde des moteurs de traitement de données de type Big Data a déjà bien changé, depuis ses récents débuts. Il y a peu, celui-ci était globalement scindé en deux. D’un côté, les moteurs spécialisés qui offrent une optimisation maximale, via une structuration et un stockage des données en colonnes par exemple, et permettent des requêtes analytiques ensemblistes propices aux applications de type décisionnel. Ce sont les « coupés sport » de la base de données, composés d’acteurs tels que Sybase IQ, Vertica, Infobright, Vectorwise, Calpont…

De l’autre côté, les moteurs de traitement de données de type Appliance MPP (Massive Parallel Procesing) qui sont davantage adaptés aux grands datawarehouses d’entreprise pour des usages aussi bien transverses que métiers (EDW). Ils centralisent le patrimoine d’informations de l’entreprise et autorisent une organisation des données relativement souple. Ce sont les « semi-remorques » de la base de données, certes plus puissants, mais moins abordables que les moteurs spécialisés. S’y côtoient Teradata, Oracle (Exadata), ou encore IBM (Netezza).

Si ces deux approches répondent à des usages bien réels, elles peinent à traiter la jungle des données structurées et non structurées désormais produites : commentaires sur les réseaux sociaux, mobilité, machine-to-machine, trafic web… Stratégique pour l’entreprise, cette masse croissante d’informations recèle une réelle valeur économique, mais dépasse très largement la capacité des moteurs de traitement traditionnels. Autrement dit, ces derniers ne sont déjà plus adaptés à la gestion intensive de pétaoctets de données. C’est là qu’interviennent les frameworks de type Map Reduce, dont l’approche consiste à explorer, puis à révéler des données chaudes, brutes et potentiellement non structurées. Au prix d’une moindre performance par CPU et d’une relative inertie dans les traitements, la quantité de données traitables est ici démultipliée à l’infini (cf. schéma 1), comme une motrice dont on pourrait accrocher autant de wagons qu’on le souhaite.

Ce nouveau monde est bien différent des deux précédents. Alors que plusieurs éditeurs se partagent historiquement le marché des moteurs de traitement de données de type SGBD, Hadoop s’impose d’ores et déjà comme le principal et incontournable moteur de type Map Reduce. Rappel des faits. En 2008, Google publie l’algorithme de son framework Map Reduce, dont Yahoo propose un clone open source. Hadoop est né. Ce moteur, qui fonctionne sur un système de fichiers répartis sur plusieurs machines physiques (HDFS), reprend les grands principes de l’algorithme Map Reduce en Java.

Page: 1 2

Recent Posts

Pour son premier LLM codeur ouvert, Mistral AI choisit une architecture alternative

Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…

7 heures ago

Microsoft x Inflection AI : l’autorité de la concurrence britannique lance son enquête

L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…

10 heures ago

Thomas Gourand, nouveau Directeur Général de Snowflake en France

Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…

11 heures ago

Accord Microsoft-CISPE : comment Google a tenté la dissuasion

Pour dissuader le CISPE d'un accord avec Microsoft, Google aurait mis près de 500 M€…

11 heures ago

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

12 heures ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

1 jour ago