MapR : la distribution Hadoop pour le cloud Google

Google Compute Engine mise sur le big data avec la distribution Hadoop de MapR, disponible en version bêta limitée auprès de quelques privilégiés.

Publié par La rédaction le 9 juil. 2012 | Mis à jour le 2 mars 2021 à 13:21

Lecture
3 min

Imprimer

Si avec Compute Engine Google se lance dans le cloud (voir Compute Engine : l'IaaS hautes performances de Google), le montage technologique de l'offre IaaS (Infrastructure as a Service) du géant de la recherche Internet nous a interpellés et nous restons prudents quant aux ambitions du projet (Google Compute Engine se coupe de 90 % des clients du cloud). En revanche, s'il est un domaine qui pourrait tirer profit du cloud de Google, c'est l'analytique big data. Un juste retour des choses ?

Du développement de MapReduce à Hadoop sur le cloud Google

Rappelons tout d'abord que Google est en partie à l'origine de Hadoop, la plateforme big data open source devenue la référence. Tout du moins c'est Google qui a initié voici quelques années le développement de MapReduce, le module analytique qui accompagne le système de fichiers des grosses volumétries du big data.

MapReduce a ensuite inspiré la communauté de développement de Hadoop, tandis que son auteur Doug Cutting, en opposition avec la stratégie de Google (qui s'est révélée plus propriétaire que le discours de l'époque), quittait la firme pour rejoindre Yahoo et continuer de développer Hadoop dans l'esprit de l'open source. Nous avons rencontré Doug Cutting lors d'un voyage sur la Silicon Valley, lire notre article Cloudera : une brève histoire d'Hadoop, de son créateur, et d'une révolution.

C'est la distribution de MapR Technologies, une version commerciale de la distribution Apache Hadoop, qui a été retenue par Google pour alimenter l'offre analytique big data de Compute Engine. Google devrait donc rapidement proposer un service d'analyse de la donnée sur son cloud basé sur un large cluster piloté par Hadoop. Une version bêta privée gratuite de MapR sur Google Compute Engine est disponible, mais reste réservée à un petit nombre d'utilisateurs sélectionnés.

Démonstration de Hadoop sur Compute Engine

MapR a réalisé une démonstration d'Hadoop sur Google Compute Engine lors de la conférence Google I/O qui s'est tenue fin juin. MapR s'est appuyé sur un cluster de 1256 nouds, avec 5024 cours de processeurs et 1256 disques, pour réaliser une transaction analytique de 1 To, qui a pris 1 minute et 20 secondes. En comparaison, le record pour la même transaction est de 1 minute et 2 secondes, sur un cluster physique privé alignant 200 serveurs supplémentaires, de double de cours et quatre fois plus de disques.

Proposé à la demande, l'analytique big data de Google Compute Engine pourrait séduire les organisations qui ne craignent d'affronter ni le cloud, ni certaines pratiques de Google qui peuvent laisser planer le doute sur l'exploitation par le moteur des données qui lui sont confiées.

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

MapR : la distribution Hadoop pour le cloud Google

Du développement de MapReduce à Hadoop sur le cloud Google

Démonstration de Hadoop sur Compute Engine

Cloud de confiance : ce que recherche l'administration française

Pourquoi OpenStack rejoint la Fondation Linux

Comment Dropbox a repensé son architecture orientée services

VMware, pari gagné pour Broadcom ?

Une entreprise française sur deux dépasse son budget Cloud

S’abonner

Leader des services de réponse à incident de cybersécurité

Comment optimiser la consommation énergétique d’un [...]

Comment l'IA améliore la qualité de vos réunions ?

Sécuriser les solutions de communications unifiées et [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Du développement de MapReduce à Hadoop sur le cloud Google

Démonstration de Hadoop sur Compute Engine

S’abonner

Partager l'épisode