Silicon Valley : outil de recherche Cloudera Big Data Hadoop

Pour ses 5 ans, après un moteur de requêtes SQL, Cloudera, première distribution Hadoop, nous offre un moteur de recherche big data basé sur Apache Solr.

Publié par La rédaction le 31 juil. 2013 | Mis à jour le 2 mars 2021 à 13:50

Lecture
4 min

Imprimer

Reportage réalisé dans le cadre du IT Press Tour 2013 (juin 2013)

Retour chez Cloudera, l'une des trois premières distributions historiques du big data Hadoop, que nous retrouvons une nouvelle fois dans ses locaux, au centre de San Francisco. Une start-up, qui a su séduire les investisseurs - Cloudera a levé 65 millions de dollars ! - en imposant sa distribution Hadoop basée sur le cour open source du projet de la fondation Apache - auquel elle contribue largement -, un cour étendu via des développements en partie propriétaires.

Lire « Cloudera, l'état de l'art d'Hadoop et du Big Data analytique ».

Peter Cooper-Ellis - un vétéran avec ses 30 ans d'industrie du logiciel, qui a rejoint l'éditeur au poste de vice-président Engineering après être passé par la case VMware - nous a présenté Cloudera comme « la plateforme du big data pour le stockage de volumes massifs de données, en partenariat avec des sociétés qui font de l'analytique. Nous sommes la première distribution packagée de Hadoop open source. Et en 2012, nous avons annoncé Cloudera 4, la première plateforme big data analytique d'entreprise mature. »

Il est vrai que les chiffres alignés par la start-up sont éloquents : au bout de 5 ans, Cloudera affiche 400 employés, 600 partenaires, des dizaines de milliers de nodes, 20 milliards d'évènements enregistrés par jour, 250 millions de tweets sur Twitter. 70 % des smartphones aux US aboutissent sur l'Hadoop Cloudera, qui participe également à la standardisation des institutions financières, et compte parmi ses clients Box, eBay, Experian, Expedia, Monsanto, ou encore Nokia.

Cloudera Impala

Fin 2012, Cloudera annonçait Impala, un moteur de requêtes SQL interactif pour Hadoop. L'outil comprend également un moteur de requêtes MPP natif, un runtime séparé de MapReduce, des requêtes low latency. Le tout en open source.

Les avantages d'Impala ? « Porter l'expérience SQL sur le Big Data. Nous apportons la capacité de poser de nouvelles questions de type business intelligence et analytique sur plus de données, explique Justin Erickson, Director Product Management de Cloudera. Notre plateforme réduit les délais de migration des données et les temps de latence des applications analytiques, tout en conservant la fidélité des requêtes ». En revanche, si Impala propose un modèle pour développer des analytiques, il ne dispose pas de modèles de requêtes packagés.

Cloudera Search

La dernière nouveauté annoncée par Cloudera, et qui nous a été présentée lors de notre visite dans la Silicon Valley, s'appelle Cloudera Search. Il s'agit d'un moteur de recherche pour données big data, toujours en open source. Cet outil est intégré à Cloudera CDH (le cour Apache Hadoop open source augmenté de 9 projets open source provenant de l'écosystème Hadoop) et repose sur le projet Apache Solr, une plateforme logicielle de recherche s'appuyant sur le moteur de recherche open source Lucene.

« L'objectif est d'étendre le ROI du big data avec un outil analytique d'exploration, simple d'emploi pour tous, et qui ne soit pas séparé du stockage », nous a indiqué Justin Erickson. « Basé sur Lucene, Search est intégré à Cloudera Manager et CDH. Et il profite de HDFS comme base d'index. »

Cloudera voit « Hadoop comme le point central de la donnée ». Et demain ? « Nos réflexions tournent autour de l'accès Hadoop via Windows. ». En attendant, l'éditeur a signé un partenariat avec SAS pour faire tournerles outils de ce dernier sur la distribution Cloudera (lire Mouloud Dey (SAS): « Jouer le rôle de chef d'orchestre Big Data au cour d'une cohabitation hétérogène »).

Nouvelle rencontre avec Doug Cutting

Que le monde est petit ! Doug Cutting est à l'origine de Hadoop (lire « Cloudera : une brève histoire d'Hadoop, de son créateur, et d'une révolution »), mais également de Lucene qu'il a développé en 1999. Nous retrouvons une nouvelle fois cette sympathique figure de la Silicon Valley, grand amateur de la France. L'occasion de l'interroger sur le devenir d'Hadoop.

« Nous assistons à la transition du processing local vers le web processing. C'est une transition fondamentale dans notre façon de traiter les données. L'usage des PC partout et l'adoption des technologies génèrent de plus en plus de données. L'open source a largement participé au succès de Hadoop, qui est une plateforme majeure pour ouvrir de nouvelles voies dans le traitement de la donnée. C'est le leader du big data. En rendant Solr efficace, nous avons transformé Hadoop en OS du big data-as-a-service. Ma vision du futur ? C'est le processing sur le streaming et le learning. »

Voir aussi

Silicon.fr étend son site dédié à l'emploi IT
Silicon.fr en direct sur les smartphones et tablettes

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Silicon Valley : outil de recherche Cloudera Big Data Hadoop

Cloudera Impala

Cloudera Search

Nouvelle rencontre avec Doug Cutting

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Cloudera Impala

Cloudera Search

Nouvelle rencontre avec Doug Cutting

S’abonner

Partager l'épisode