Hadoop sur le déclin ? Cloudera, Hortonworks et MapR répondent
Des clusters sous-employés, un retour sur investissement peu clair, des déploiements qui déjà ralentissent. Le cabinet d'études Gartner dressait il y a quelques jours un tableau assez noir du futur d'Hadoop, la plate-forme Open Source facilitant la création d'applications distribuées. Une étude à rebrousse-poil du discours ambiant qui nous a incité à interpeler les trois principaux éditeurs de distributions Hadoop : Cloudera, Hortonworks et MapR.
Des éditeurs qui soulignent avant tout le contraste entre les projections assez sombres du Gartner et l'évolution de leur chiffre d'affaires. Hortonworks souligne ainsi avoir battu les prévisions des analystes au premier trimestre 2015, avec une progression de 167 % de son chiffre d'affaires sur un an. « Au cours du premier trimestre, nous avons enregistré la signature de 105 nouveaux clients, contre 99 au dernier trimestre de 2014. Cela montre que les entreprises continuent à adopter Hadoop et que nous ne sommes pas en train de vendre la solution à notre base installée (comme le conseillait Gartner dans son étude, NDLR) », indique un porte-parole de Hortonworks.
Sur les traces de Red Hat
Même remarque de la part de Cloudera, qui a annoncé, en février dernier, une croissance de 100 % sur son dernier exercice fiscal. La société se targue aussi d'être le second éditeur Open Source à franchir la barre des 100 millions de chiffres d'affaires après. Red Hat. Un tableau qui colle mal avec l'essoufflement supposé du marché Hadoop, avance la société qui compte dans ses rangs le concepteur du framework, Doug Cutting. « La croissance reste supérieure dans les domaines où Hadoop a décollé en premier, comme les entreprises du Web du type de Yahoo. Mais l'adoption est désormais rapide dans tous les autres secteurs. La finance est ainsi désormais le second secteur en terme d'adoption du framework », assure la société dans un mail à la rédaction.
En France, et plus globalement en Europe du Sud, la tendance serait similaire, selon Romain Picard, qui dirige les activités de Cloudera dans cette zone. « Au premier trimestre, 5 ou 6 nouveaux clients (sur un total de 13 en Europe du Sud, NDLR) ont signé avec nous en France », assure-t-il, signalant des mises en production dans les télécoms et la banque.
De son côté, MapR dégaine une étude que la société a commandée à l'institut TechValidate auprès de plus de 700 de ses clients. Selon ce coup de sonde, 73 % des entreprises qui ont déployé la solution l'emploient pour offrir de nouveaux services ou solutions. Plus que celles qui ont mis en oeuvre Hadoop pour réduire les coûts (59 %), par exemple en se servant du framework comme solution pour décongestionner le datawarehouse. Preuve que Hadoop serait plus qu'une solution d'appoint, employée simplement par opportunisme, pour abaisser les coûts.
Peu d'utilisateurs : et alors ?
Steve Wooledge, le vice-président marketing produit de MapR, s'étonne également de la statistique donnée par Gartner en matière de nombre d'utilisateurs des clusters Hadoop. « J'ai deux réponses sur ce point. La première, c'est que nous sommes encore sur un marché jeune où les pionniers testent leur data lake. De nombreuses sociétés utilisent Hadoop d'abord comme zone de réception ou de transit pour les données, pour leur transformation ou pour des applications analytiques avancées comme le Machine Learning. Sur ce terrain, il semble que de nombreux utilisateurs sondés par l'étude (de Gartner, NDLR) ne sont pas encore passés en production. La seconde, c'est que, dans les entreprises centrées sur la donnée, organisation qui ont automatisé des applications fortement intégrées à leur activité, la valeur d'une solution ne dépend pas du nombre d'utilisateurs ». Et de dégainer un autre chiffre issu de l'étude menée auprès de la base installée MapR : au total, 96 % des entreprises interrogées font tourner plusieurs scénarios métier sur un même cluster Hadoop (plus de 11 dans 40 % des cas). Un critère bien plus pertinent que le nombre d'utilisateurs, selon Steve Wooledge.
Romain Picard considère lui aussi que l'argument portant sur le nombre d'utilisateurs est peu pertinent. « Les utilisateurs de Hadoop sont des administrateurs, par définition peu nombreux. Il est plus intéressant de s'intéresser aux utilisateurs indirects de la plate-forme, via des applications de BI exploratoires comme Tableau ou Qlik par exemples », relève le directeur Europe du Sud de Cloudera. Selon lui, 4 administrateurs suffisent ainsi pour administrer un cluster Hadoop de 4 Po.
Les DSI hésitants vont y aller, selon Forrester
Aux doutes soulevés par le Gartner quant aux retours sur investissements des déploiements, Steve Wooledge rétorque que les principaux scénarios d'utilisation de Hadoop sont aujourd'hui bien identifiés, ce qui faciliterait les calculs de rentabilité. Dans environ 40 % des cas, MapR explique que sa distribution est employée comme data lake ou data hub, autrement dit comme emplacement de stockage unique de données que l'entreprise ne conservait auparavant pas. Auprès de 20 % de la base installée, le framework est employé dans l'analyse de logs (web, de sécurité.), applications générant d'importants volumes de données semi-structurées. Enfin, les applications opérationnelles en temps réel concerneraient encore 20 % de la base installée de l'éditeur. « Un mythe courant est que Hadoop est limité aux traitements en batch, alors que de plus en plus d'entreprises utilisent des bases NoSQL comme Apache HBase couplées à des technologies de recherche comme Apache Solr ou Elasticsearch pour des applications de recommandations ou de ciblage de contenus, demandant de faibles temps de latence », reprend Steve Wooledge.
Dans la même veine, Hortonworks met en avant l'avis d'un autre analyste, Mike Gualtieri, issu de Forrester cette fois. Dans un billet de blog datant de début 2015, ce dernier assure que la valeur de la plate-forme n'est plus à démontrer dans un certain nombre de scénarios, « comme les data lake, les applications analytiques traditionnelles ou avancées, l'ETL sans ETL, l'archivage actif et même certaines applications transactionnelles ». Conclusion de Mike Gualtieri : la minorité de DSI qui reste hésitante face à la technologie va faire de Hadoop une priorité en 2015.
Pour Romain Picard (Cloudera), le retour sur investissement de Hadoop dépend évidemment du scénario retenu par l'entreprise. « Sur l'optimisation du datawarehouse, cela peut être très rapide, assure-t-il. Utiliser Hadoop en complément du datawarehouse permet d'exploiter à plein ce dernier pour ses capacités analytiques et de positionner le framework en data hub ou data lake, autrement dit en agrégateur des données transactionnelles, Web ou issues de l'Internet des objets. Le tout sans recourir à des processus ETL, longs et coûteux. Ce couplage permet de stocker le maximum de données tout en libérant la performance du datawarehouse. » Selon Romain Picard, sur le critère du coût par To, le facteur de réduction budgétaire qui découle de cette association peut être très important, « jusqu'à 100 », dit-il. Tout simplement parce que le recours au framework permet d'employer des serveurs x86 de premier prix. Cloudera, comme les autres éditeurs de distributions Hadoop, a passé des accords de partenariat avec les principaux éditeurs de datawarehouse (Oracle, Teradata, SAP dans le cas présent), afin de faciliter la mise en place de ces couplages. Romain Picard reconnaît que les retours sur investissement sont naturellement plus longs avec les applications tournées vers l'innovation. « Même si la technologie reste peu coûteuse, les bénéfices sont parfois moins facilement mesurables. Il peut s'agir d'améliorer la rétention des clients ou la sécurité d'une entreprise. »
A lire aussi :
Big Data : Teradata embrasse Hadoop. faute de pouvoir l'éviter
Big Data : comment SoLocal apprivoise Hadoop
Crédit photo : agsandrew / Shutterstock
Sur le même thème
Voir tous les articles Data & IA