Hadoop doit rester une solution 100% Open Source
Après 10 ans chez IBM, puis plusieurs années chez SpringSource et VMware (responsable de la division vFabric Cloud Application Platform), Herb Cunitz a été recruté par Hortonworks en octobre 2012 au poste de président. Il a pour charge de développer les ventes au niveau international, et d'assurer l'expansion de la société.
Vous venez de racheter la société XA Secure. Un moyen d'utiliser les 100 millions de dollars que vous venez de lever ?
Cet investissement sert à notre expansion internationale et à l'amélioration constante de nos formations et certifications à travers le monde. De même, cela nous aide à poursuivre notre R&D avec des partenaires technologiques comme SAP, SaS, Microsoft, RedHat, Teradata, etc. Par ailleurs, nous réalisons aussi des acquisitions comme celle de XA Secure. C'est-à-dire tout type de technologies qui apportent une valeur ajoutée à la plate-forme Hadoop.
Pourtant, vous revendiquez être un acteur 100% open source.
Justement, nous soumettrons ces technologies de sécurisation comme un projet open source à l'Apache Software Foundation, au cours du second semestre de 2014. Ce type d'acquisition nous permet d'accélérer la mise à disposition d'une sécurité aboutie pour Hadoop aussi bien en mode Batch, interactif en temps réel. Et cette démarche globale confirme notre positionnement 100 % open source.
Lire aussi : De S3 à EFS, le stockage AWS s'adapte à l'IA
Qu'apporte précisément XA Secure ?
Cet éditeur de 20 personnes est spécialisé dans la gestion centralisée de la sécurité sur Hadoop. Une approche rendue plus indispensable encore avec les applications temps réel et le désir de clients de disposer de clusters Hadoop multiapplicatifs : authentification, droits d'accès, audit, protection des données. Et surtout, la possibilité d'intégrer et d'étendre la sécurité dans et travers tous les composants de la pile Hadoop, de façon cohérente et coordonnée.
Dans la situation actuelle, quelques fonctions de sécurité font défaut comme la gestion globale centralisée de la sécurité, ou restent incomplète ou peu finalisées comme les politiques de contrôle d'accès ou les possibilités d'audit ou de gouvernance. Autant de manques que vient combler la suite XA Secure.
Comment évolue cette société totalement open source ?
En 2011, Hortonworks comptait 28 personnes, dont 25 ingénieurs et CEO issus des équipes de Yahoo ayant travaillé sur le projet à l'origine de Hadoop. Aujourd'hui nous sommes plus 400 dans le monde.
Notre philosophie est notre modèle économique qui repose toujours sur une solution 100 % open source. Contrairement à Cloudera ou MapR, nous ne proposons aucune extension logicielle différente ou anticipée, ni aucun add-on propriétaire.
Notre modèle économique repose sur le support (80% du CA) autour de notre plate-forme HDP (Hortonworks Data Platform), la formation et le service (20% du CA). Une situation rendue possible grâce à l'expertise de nos ingénieurs sur ces technologies.
En quatre ans nous sommes passés de quelques clients aux États-Unis, à plus 300 dans le monde, avec des références comme EDF ou Canal+ en France. Et plus d'une trentaine de clients (grandes entreprises ou administrations) en Europe.
Cependant, Cloudera et MapR ont développé du code pour pallier des manques dans Hadoop 1.0, sur la supervision ou le gestionnaire de fichiers.
Certes. Mais la dernière version Hadoop propose tout le nécessaire pour combler ces manques originels.
Hadoop devient une plate-forme d'applications d'entreprise. Quelle est la plus grande évolution de votre dernière plate-forme ?
Une des plus grandes évolutions de notre plate-forme HDP 2.1 est l'intégration de Yarn, un sous projet d'Hadoop de l'Apache Software Foundation introduit avec Hadoop 2.0. Cette brique technologique que nous baptisons « système d'exploitation des données » permet de couper la dépendance entre le système de gestion de fichiers HDFS (Hadoop Distributed File System).
Dans Hadoop 1, MapReduce prenait en charge à la fois le traitement des données et la gestion des ressources de clustering, au-dessus de HDFS. Pour décloisonner la dépendance entre eux HDFS et MapReduce, Yarn joue le rôle le rôle d'orchestrateur des ressources de clustering entre le système de gestion de fichiers (HDFS 2) et tous les modules possibles de traitement de fichiers, dont MapReduce.
Il devient ainsi possible d'exécuter nativement des applications en temps réel au sein même d'Hadoop. Sur HDP 2.1, divers modules peuvent donc s'installer puisque des applis permettent de s'interfacer. A côté des traitements batch par MapReduce, deux traitements interactifs sont désormais possibles (Tez) comme le SQL en temps réel, le streaming de données (Storm, S4.), du graph (Giraph pour les graphes sociaux par exemple), le In-Memory (Spark), le search, etc.
Bref, Hadoop n'est plus uniquement une simple plate-forme batch. Et les performances ont été multipliées jusqu'à un facteur 100 dans nombre de requêtes.
Une entreprise comme Spotify en Europe exécute sa plate-forme de distribution musicale sur une application purement HDP 2.1, sur un cluster d'environ 850 nouds.
Les éditeurs traditionnels suivent-ils vraiment le mouvement ?
Absolument. Par exemple, le moteur de données de Sas peut être connecté à Yarn, et travailler en direct sur HDFS 2. Mais de nombreuses autres sociétés proposent maintenant des liens directs soit vers Yarn soit vers HDFS 2, comme SAP, Microsoft, RedHat, NetApp, Teradata.
Ainsi, SAP Hana fonctionne avec Hadoop. De même, avec RedHat une intégration est possible entre JBoss et Yarn. Autre exemple, Microsoft s'intéresse à l'utilisation combinée de Yarn et de Falcon pour des applications Hadoop en traitements distribués sur des lieux différents avec une coordination sur des infrastructures qui peuvent être à la fois sur site ou dans le cloud.
En quelques mots, quelles autres évolutions vous semblent-elles importantes avec Hadoop 2 ?
Parmi les autres améliorations de HDP 2.1, on retrouve une meilleure gouvernance des données (Falcon), une meilleure gestion des opérations des clusters et des tâches, une évolutivité naturelle jusqu'à plusieurs pétatoctets, plusieurs mesures de sécurité renforcée (knox) ainsi que la gestion de l'authentification via des annuaires LDAP ou Active Directory. Et tout cela, évidemment, avec une nouvelle dimension de traitement en temps réel.
Sur le même thème
Voir tous les articles Data & IA