Big Data : Impala de Cloudera interroge Hadoop en temps réel
Développé selon un modèle flexible, Impala est un moteur d'interrogation qui permet d'exprimer des requêtes au standard SQL sur des données HDFS (Hadoop Distributed File System) ou HBase, donc sur les Big Data sous Hadoop. La solution s'appuie sur Cloudera Enterprise RTQ (Real-Time Query), développée par Cloudera, auteur d'une distribution majeure d'Hadoop.
Impala, un projet Hadoop sur Apache
La solution présente l'avantage de permettre d'interroger un ensemble de données dispersées dans des bases structurées et non-structurées via une plateforme Big Data unique, et d'obtenir la réponse en temps réel.
Traditionnellement, cette opération requiert d'exprimer la requête sur une ferme de données (datawarehouse) via les infrastructures de Business Intelligence (BI).
Contourner la complexité de l'analytique
L'architecture parallèle évolutive de la plateforme Hadoop séduit les entreprises par sa capacité à approcher et à analyser au plus près du temps réel des volumes très importants et dispersés de données structurées et non-structurées.
Mais l'analytique sur Hadoop souffre d'une réelle complexité et demande de nouvelles compétences (lire notre interview de Roxane Edjali, du Gartner : « Le Big Data n'est pas un marché en soi »). C'est pourtant certainement le principal usage attendu liée à l'adoption du Big Data.
Lire aussi : Economie IT : un coup de froid attendu pour 2025
Impala, disponible en version 1.0, est une solution open source (comme Hadoop) sous licence Apache. Elle simplifie l'interrogation en reprenant les modèles et outils SQL. Selon une étude de Cloudera sur ses clients, elle répond aux attentes de 78 % des entreprises qui exploitent Hadoop, obtenir plus rapidement des réponses à leurs interrogations.
Sur le même thème
Voir tous les articles Data & IA