EMC World : Greenplum Analytics Workbench, le « projet X » du Big Data
Publié par La rédaction le | Mis à jour le
EMC Greenplum teste avec ses partenaires la plus grande architecture analytique Big Data au monde. Elle est composée de 1000 noeuds en cluster sous Hadoop et MapReduce.
De notre correspondant à l'EMC World de Las Vegas - Afin de redéfinir les modèles d'applications analytiques du Big Data, le projet Greenplum Analytics Workbenchva tester les limites des technologies d'infrastructure « scale out » via le cluster de 1000 noeuds installé en laboratoire.
Camouflé sous l'appellation « Projet X », accompagné d'une imagerie à la Star Trek, avant d'être dévoilé lors de la seconde journée d'EMC World, Greenplum Analytics Workbench est un projet à la fois ambitieux et innovant qui réunit EMC, Intel, Mellanox Technologies, Micron, Seagate, SuperMicro, Switch et VMware.
Le laboratoire Greenplum Analytics Workbench
Le laboratoire intègre :
Infrastructure du projet Greenplum Analytics Workbench
Le support des 1000 noeuds est assuré par les équipes de Rubicon, filiale de VMware, via le système de gestion du matériel et de monitoring du réseau Zabbix.
L'environnement logiciel Hadoop
Greenplum fournit le système de fichier distribué open source Hadoop, qui permet sur le cluster d'exploiter les noeuds à la fois pour le traitement et pour le stockage; et l'environnement analytique. Le système de fichier HDFS (Hadoop Distributed File System) s'occupe de la distribution des données sur le cluster tandis que les mécanismes de parallélisation des tâches (processus) sont assurés par Hadoop MapReduce, dont la complexe programmation des requêtes (appelées jobs) fournit les ressources analytiques.
L'objectif du projet est d'accélérer l'adoption d'Hadoop et donc bien évidemment du Big Data. En commençant tout d'abord par valider le code de base d'Apache Hadoop dans un environnement massif jamais encore déployé à cette échelle. En rendant les résultats des tests accessibles à la communauté open source, les porteurs du projet espèrent attirer de nouveaux acteurs vers le Big Data.
Tester, valider et former
Un autre objectif clairement déclaré est de tester les limites des technologies d'infrastructure scale-out. Tout en faisant cela, Greenplum compte faire d'une pierre deux coups en explorant au travers des tests de nouveaux modèles d'usage de l'analytique associée au Big Data.
Le cluster, qui devrait être opérationnel au cours de l'été, sera également accessible aux partenaires de Greenplum qui se forment sur Hadoop et visent la certification. Disposer d'un accès à un cluster géant de 1000 noeuds devrait pouvoir chatouiller la fibre d'innovation de la communauté Hadoop...