Le logiciel dévore le stockage avec Minio, Flashgrid ou Primary Data
Dans la Silicon Valley, le stockage prend surtout des allures logicielles suivant les tendances du SDS (Software Defined Storage) et de la virtualisation du stockage. Au menu, des solutions plus ou moins techniques positionnées sur des segments de marché plus ou moins larges : du Cloud storage avec Minio, à la virtualisation de SSD NVMe avec FlashGrid, en passant par la virtualisation totale du stockage avec Primary Data.
Minio : votre propre stockage Amazon S3 ?
Technologie de stockage objet inspirée par l'API Amazon S3, Minio est la contraction de "minimum I/O" (minimum d'entrées/sorties). Avec son désir de faire simple, la start-up cible avant tout les développeurs pour leur simplifier le travail. Ce choix parait judicieux dans une économie de plus en plus basée sur les applications.
L'un des cofondateurs de Minio est une figure du stockage dans la Silicon Valley. En effet, Anand Babu Periasamy a été le co-fondateur de Gluster dont il était le directeur technique.
La technologie Open Source GlusterFS rassemble les ressources de puissance de calcul, de stockage et d'entrée-sortie dans un 'namespace' unique. La Gluster Storage Software Appliance est une image ISO qui s'installe en mode bare metal (serveur nu) et intègre GlusterFS avec CentOS (chaque serveur joue le rôle de noeud). Les équipements de stockage installés sous ces serveurs entrent alors dans le pool de virtualisation unifié. L'évolutivité s'effectue par ajout de serveurs ou d'équipements de stockage par serveur.
Lire aussi : OpenStack : l'IA en filigrane de la nouvelle version
En octobre 2O11, RedHat a racheté Gluster (pour 136 millions de dollars) afin de développer son offre de stockage, conservé la majorité de l'équipe et maintenu la solution en Open Source.
Avec un tel CV, Anand Babu Periasamy n'a eu aucun mal à convaincre les investisseurs de l'accompagner dans sa nouvelle entreprise, Minio.io, lancée fin 2014. La société a d'ailleurs levé plus de 3 millions de dollars en juin dernier.
Cette solution de stockage Cloud Open Source se présente comme une alternative à Amazon S3.
Développé en langage Go (ou golang, conçu par Google), le serveur Minio se veut « un serveur de stockage Cloud pour micro-services, compatible avec les API Amazon S3, et sous licence Apache V2 », précise Anand Babu Periasamy, co-fondateur et CEO de Minio (ou Minio.io). « Cette version de Minio intègre un système de gestion de fichiers destiné à des disques ou des SSD. De l'autre côté, le client Minio est une alternative aux commandes Unix (ls, cat, cp, sync et diff), supportant les filesystems Unix et les systèmes de stockage compatible Amazon S3.» Un client également développé en Go.
Face à la multitude projet Open Source de stockage objet, Minio joue la carte des développeurs. Il s'adresse à eux en leur fournissant également des APIs ouvertes et simples à utiliser, sans qu'ils aient à se préoccuper "de la plomberie" pour disposer d'un stockage évolutif, capable de monter très vite en charge.
Outre son Micro Server, le client et le SDK (Java, Go, Python, JavaScript, .Net), Minio proposera dans quelques mois son serveur distribué Minio XL destiné aux environnements de stockage de plusieurs pétaoctets.
Oracle RAC à la vitesse de l'éclair avec FlashGrid
Leader mondial des bases de données, Oracle génère tout un écosystème autour de ses solutions, et surtout autour de ses clients. Et le stockage n'échappe pas à la règle. Comme le prouve la toute nouvelle start-up Flashgrid.
Créée en 2015 par des vétérans du stockage et de la virtualisation, dont son CEO Alex Miroshnichenko (ex CTO de Visto racheté par VMware pour améliorer sa technologie de Virtual SAN), FlashGrid souhaite améliorer les performances des bases de données Oracle en cluster (RAC) ou ASM. La jeune société a donc conçu un logiciel afin d'offrir aux database l'accès à un stockage partagé sur des pools de SSD NVMe (optimisés pour utiliser tout le potentiel des bus PCIe). Offrir est bien le mot, car la solution est gratuite et seul un support payant est proposé.
Oracle RAC (livrée avec le SGBD au-delà de l'édition standard) apporte à l'utilisateur une architecture en cluster pour faire tourner ses bases de données. Depuis la version 10g, Oracle inclut aussi la fonction ASM (Automatic Storage Management) afin que l'administrateur gère directement le stockage depuis la base de données, en s'affranchissant des gestionnaires de fichiers ou du stockage des systèmes d'exploitation. Pour cela, Oracle a développé son propre système de gestion de fichiers ACFS (ASM Cluster File System), permettant à tous les noeuds d'un cluster la lecture et l'écriture sur le pool de disques partagés. ASM prend également en charge la répartition des écritures, la réorganisation à chaud dès l'ajout ou la suppression de capacités de stockage, les copies de type mirroring ou snapshot, ou le multipathing en lien avec d'autres technologies (tolérance de pannes ou accès SAN, entre autres).
FlashGrid prend en charge les SSDs et leur connectivité, mais laisse la main à ASM pour gérer les volumes, et procurer toutes ses fonctions de disponibilité (énumérées plus haut). Et chaque instance ASM peut accéder aux SSDs du cluster via Flashgrid.
Contrairement à ASM, FlashGrid n'oblige pas chaque noeud du cluster à être connecté à chaque pool de SSDs. Plusieurs configurations sont possibles : un noeud peut contenir de la puissance de calcul et du stockage, ou seulement du stockage, ou seulement de la puissance de calcul.
La start-up s'amuse à comparer les 2 kg de SSD procurant 16 To de stockage aux 96 kg d'une baie de stockage traditionnelle, et les 36 GBps de bande passante de 12 SSD NVMe sur trois noeuds gérés par Flashgrid aux 3 GBps d'une baie. Sans oublier les 4,4 millions d'IOps (sur la même configuration) aux 250 000 IOps classiques. La magie de la consolidation réseau en mode Ethernet (10/40/100 Gb/s) ou InfiniBand/RDMA (Remote Direct Memory Access).
L'évolutivité est bien au rendez-vous avec de 0,4 à 50 To par noeud, sur une infrastructure de 2 à 100 noeuds. Attention la solution ne supporte actuellement que les bases de données Oracle 11.2 et 12.1 sous RHEL 7 ou Oracle Linux 7, mais aussi les hyperviseurs Oracle VM 3.3 et VMware 5.5.x.
Primary Data virtualise enfin concrètement
Depuis notre passage chez Primary Data l'an dernier, la technologie a muri et s'est transformée en solution, avec un discours simplifié et maîtrisé. Il était temps, car la société a commencé la commercialisation de son produit, désormais baptisé DataSphere.
Rappel : la start-up de Los Altos a levé 60 millions de dollars entre octobre 2013 et février 2014, a recruté Steve Wozniak, ouvre des filiales à travers le monde, et emploie toujours 80 personnes. Une longue R&D.
« Nous ne vendons pas de baies de stockage, uniquement du logiciel sous forme d'appliance ou de VM ne stockant que des métadonnées », rappelle David Flynn, CTO de Primary Data.
Après la virtualisation du stockage permettant de s'affranchir de la dépendance des technologies propriétaires des équipements, Primary Data estime que le temps de la mobilité des données est venu, afin « de stocker les données sur le stockage le plus approprié et de manière totalement automatisée : la bonne donnée, à la bonne place et au bon moment, en utilisant le stockage existant. »
Technologiquement agnostique, DataSphere virtualise le stockage et supprime toute éventuelle dépendance entre la donnée et l'équipement. Composant avec tout type de matériel et architecture (DAS, NAS, SAN, SSD, cloud, etc.), DataSphere gère un espace de stockage dont la capacité peut être automatiquement augmentée ou diminuée.
Puis, le logiciel utilise les métadonnées et un moteur de règles afin de placer les données sur le support le plus judicieux, sous forme de fichiers, en mode bloc ou en technologie objet. Deux types d'information sont alors utilisés. Les "Objectives" sont une forme d'attributs étendus enrichissant les données (performances, sécurité, durée de vie ou cycle de vie) et les "Smart Objectives" recourent aux statistiques et au Machine Learning pour détecter le meilleur stockage possible selon l'utilisation du type de données.
Enfin, des SLA prédéfinis à plusieurs niveaux existent, mais sont modifiables sur plusieurs critères, comme les performances attendues (bande passante, entrés/sorties par seconde ou IOPS, latence.), la protection souhaitée (durée de vie, disponibilité, priorité, restauration, sécurité) ou le coût.
De multiples technologies de stockage sont déjà supportées, et d'autres devraient arriver bientôt comme Amazon Glacier, Microsoft Azure, ou Swift. Enfin, Primary Data peaufine sa technologie de géodistribution du stockage.
A lire aussi :
Le stockage a la mémoire vive et un avenir Cloud
Silicon Valley Tour : Datadog, Arcitecta et Delphix orchestrent les données
Crédit photo : zimmytws / shutterstock
Sur le même thème
Voir tous les articles Data & IA