ParStream : « conjuguer Hadoop et In-Memory »

En combinant l'indexation bitmap compressée et les traitements parallélisés sur des cours de processeurs, la start-up allemande ParStream propose du Big Data en temps réel de type Hadoop sur de gros volumes et à coût record. La Coface et l'Inra lui font déjà confiance.

Publié par La rédaction le 7 avr. 2014 | Mis à jour le 2 mars 2021 à 13:44

Lecture
4 min

Imprimer

Hadoop se trouve au cour de solutions comme Hortonworks, Cloudera - chez qui Intel vient d'investir - ou MapR (comptant des concepteurs d'Hadoop dans leurs équipes et contribuant fortement au projet). Des solutions qui voient les investisseurs affluer. Toutefois, certaines start-ups ont conçu leur propre technologie rivalisant avec Hadoop. Ainsi, la jeune pousse allemande ParStream propose une technologie plutôt sur le terrain de chasse de SAP Hana ou de HP Vertica, mais en se limitant au traitement des index. Entretien avec Peter Livaudais, directeur des solutions ParStream en France.

Silicon.fr : Comment ParStream est-il arrivée dans l'analytique Big Data ?

Peter Livaudais : En 2007, un site d'e-commerce de voyage allemand nous a confrontés à un défi : comment assurer 20 milliards d'enregistrements, jusqu'à 1000 utilisateurs en ligne simultanés, avec une réponse aux requêtes en moins de 5 millisecondes. La société nous imposait deux contraintes : un minimum d'investissement matériel et une mise à l'échelle linéaire.

Nous avons donc lancé un projet de R&D (y compris fondamentale) visant à concevoir ce type de solution pour du temps réel. Au final, nous avons élaboré une solution basée sur une indexation bitmap compressée avec des traitements parallélisés sur de multiples cours. La granularité de cette infrastructure n'est ni le noud, ni le serveur, ni le processeur, mais bien le cour de processeur (CPU ou GPU, selon les cas). Et ces streams peuvent aussi être distribués sur des cours géographiquement distincts. C'est ainsi que nous avons obtenu une base de données analytique temps réel qui peut être implémentée soit en tant qu'application, soit en programmant une API (C++). Cette solution analytique ne recourt ni à des cubes, ni à du précalcul, et se montre donc plus agile et flexible grâce aux index bitmap.

Cependant, dans le cas de ParStream, seuls les index sont en mémoire.

La solution ParStream conjugue des volumes de données de type Hadoop et une vitesse d'exécution In-Memory. Certes, nous prenons en charge les index. Toutefois, ce sont bien les index qui ralentissent le plus les performances lorsqu'ils se trouvent sur un disque. Et même avec des données sur disque, les performances suffisent pour des applications critiques, comme le prouve un de nos grands clients dans la production d'énergie, par exemple.

ParStream peut traiter immédiatement un million d'enregistrements par seconde en s'installant sur un serveur x86 avec 6 Go de RAM. Notre solution offre une portabilité totale, quelle que soit la plate-forme matérielle : serveur physique ou virtuel, service Cloud comme AWS ou Numergy. y compris sur une infrastructure scale-up comme Bull Bullion. Autre point clé, l'interface SQL utilisée et la simplicité permettent une maîtrise par un administrateur de données (DBA) en moins de deux jours. Ainsi, le serveur s'installe sur 17 Mo, en deux lignes de commande. Enfin, les développeurs accèdent simplement aux données avec leurs logiciels traditionnels comme Delphi, Ruby On Rails, du mapping objet, etc.

Comment vous positionnez-vous face à SAP Hana ou HP Vertica ?

Hana et Vertica reposent sur un accès aux données de type hiérarchique plus rigide que notre approche bitmap qui offre des caractéristiques de commutation et d'association. De plus, une appliance comme Hana impose une architecture matérielle. Avec ParStream, plusieurs méthodes sont possibles pour accéder aux données : soit directement en SQL (ODBC/JDBC.), soit via un outil de restitution comme Qlik ou MicroStrategy, soit via l'API.

Qu'en est-il de votre écosystème de partenaires en France ? Quid des premières applications réalisées ?

Après les premiers déploiements en 2013, nous nous attachons à développer notre réseau de partenaires en 2014, avec des formations et programmes spécifiques. Cet écosystème comprend des prestataires techniques et/ou intégrateurs, des cabinets de consultants et des ESN (ex-SSII) ou encore des fournisseurs d'infrastructure comme Bull, Numergy, etc.

Parmi les applications visibles, la Coface a développé le portail ellicible.fr offrant au marketing des entreprises un service de recherche multicritères en temps réel sur la base de données des 9 millions fiches d'entreprises, avec plus de 1 000 attributs chacune ! Un projet que nous qualifions de "Small Big Data". En effet, il s'agit d'un volume de moins d'un téraoctet. Toutefois, la combinaison de 9 millions de fiches d'entreprise avec 1 000 attributs chacune explique le besoin en traitements de type Big Data. Et la solution fonctionne sur deux serveurs x86 de 12 cours. Parmi les projets à plus grande échelle, nous travaillons avec l'Inra (Institut national de la recherche agronomique) et les équipes de Jean-Michel Batto sur le décryptage de l'ADN.

En complément

François Bourdoncle, Exalead : « la guerre commerciale du Big Data a déjà commencé »

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

ParStream : « conjuguer Hadoop et In-Memory »

Les insuffisances de Sesam, SI métier de la DGCCRF

Qu'est-ce que le protocole MCP, qui monte dans l'univers de [...]

La CNIL face aux limites du chiffrement homomorphe

Quelle infrastructure on-premise pour porter une stratégie IA ?

De l'UX à l'AX : penser les interfaces pour les agents IA

S’abonner

Les stations de travail dédiées à votre métier

Future of Work – Transformer le support et [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

S’abonner

Partager l'épisode