BI : Criteo fait de Vertica le compagnon de Hadoop

A Hadoop la digestion de volumes colossaux de données et l'ETL. A Vertica, les analyses exploratoires. Le spécialiste de la publicité online mise sur ce duo de technologies pour ses applications décisionnelles.

Publié par La rédaction le 8 avr. 2016 | Mis à jour le 31 déc. 2021 à 12:54

Lecture
4 min

Imprimer

Spécialiste du placement de bannières publicitaires en temps réel, Criteo possède l'un des plus gros, si ce n'est le plus gros, cluster Hadoop privé d'Europe. En plus d'une infrastructure de 1 200 serveurs située à Amsterdam, la société a investi en 2015 dans deux salles du nouveau datacenter PA4 d'Equinix en région parisienne (à Pantin). Au total, environ 900 m2 qui, à terme, pourront recevoir plus de 5 000 serveurs. Un équipement de taille dédié au framework Big Data.

Mais, comme nous l'expliquions en juin dernier, le cluster Hadoop (39 Po de données déjà à Amsterdam) sert avant tout à ingurgiter de grands volumes de données. Pour des usages spécifiques, ce datalake est donc suppléé par des technologies complémentaires, comme Vertica de HPE. « Hadoop résout beaucoup de problèmes, mais c'est avant tout un outil d'ETL adapté aux modes batch. Pour des requêtes interactives, nous avions besoin d'autres technologies », explique François Jehl, arrivé chez Criteo en 2013 et aujourd'hui à la tête de l'équipe en charge de la plate-forme analytique (en photo ci-dessus). « En 2013, nos analystes écrivaient des requêtes SQL directement sur SQL Server (la base de données au coeur de l'infrastructure de Criteo, NDLR). Ces requêtes duraient des heures et cassaient fréquemment la production. J'ai été embauché précisément pour changer ce mode de fonctionnement. »

Premier cluster Vertica chez Criteo

C'est ainsi que la société se tourne à l'automne 2013 vers Vertica, retenu pour servir de socle aux requêtes ad hoc des analystes. Et François Jehl d'expliquer notamment ce choix par la volonté du spécialiste de la publicité online de proscrire toute appliance propriétaire. « Sans oublier le fait que Vertica était la technologie la plus performante », assure le spécialiste.

Très rapidement, les outils de dataviz de Tableau Software entrent également en jeu. « Car, les 200 analystes que comptent Criteo n'ont pas tous le même niveau, ni les mêmes usages. Certains ne jurent que par des requêtes SQL ad hoc, d'autres préfèrent un outil de visualisation de la donnée », précise François Jehl. Pour cet usage, le spécialiste de la publicité online a bâti un jeu de données de 400 tables Hadoop poussées dans Vertica, dont l'infrastructure - 50 serveurs - va bientôt être portée de 100 à 150 To. « 95 % des requêtes tournent en moins de 30 secondes », dit François Jehl.

Les fausses promesses de Tableau et Qlik

C'est sur la base de cette première expérience que Criteo s'est lancé en 2015 dans un nouveau projet basé sur Vertica, société racheté en 2011 par HP. Objectif : réécrire une application centrale pour les commerciaux de la société, les revenus par client. Une application vieillissante écrite en C# dans SQL Server et exploitant de nombreux niveaux de cache. L'infrastructure Vertica mise en place pour supporter la nouvelle application baptisée Opera comprend 12 serveurs HPE (dont 1 de secours), dotés de 18 To de stockage SSD. Chaque jour, le jeu de données s'enrichit d'un milliard de lignes, soit environ 20 Go.

Justin Coffey

Surtout, pour concevoir son nouvel applicatif, Criteo a développé son propre framework (Vizatra) afin d'optimiser les requêtes SQL. « Vizatra vise à transformer les données du Big Data en tableaux de bord interactif, résume Justin Coffey, le chef de l'équipe R&D analytique et données de Criteo (soit une quinzaine de personnes). Des éditeurs comme Tableau ou Qlik promettent d'apporter beaucoup d'interactivité au-dessus de bases de données de plusieurs To. C'est tout simplement faux car les temps de réponse qu'ils proposent sont trop longs ». D'où la naissance de Vizatra dont la vocation est de « produire la requête optimale, via notre connaissance des jointures ».

Selon Justin Coffey, sur une requête de test sur un serveur de pré-production, l'équipe de Criteo est ainsi parvenue à diviser par 7 le temps de réponse par rapport à Tableau. « Ce qui nous permet d'écrire un tableau de bord exploratoire à même de répondre à un grand nombre de questions », résume Justin Coffey. Avec, selon lui, des requêtes aboutissant en moins d'une seconde dans la plupart des cas. Développé en Scala, Opera, première application bâtie sur Vizatra, est aujourd'hui en production pour une partie des utilisateurs. A noter que cette application va profiter de l'ouverture du nouveau datacenter de Criteo, à Pantin, pour bénéficier d'un niveau plus élevé de résilience grâce à un hébergement dans deux centres de données.

Comment Criteo transforme Hadoop en moteur de sa rentabilité

Criteo dédie son second datacenter à Paris à Hadoop

Big Data : Blablacar copilote sa BI avec HP, Tableau et Dataiku

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

BI : Criteo fait de Vertica le compagnon de Hadoop

Premier cluster Vertica chez Criteo

Les fausses promesses de Tableau et Qlik

Process mining : l'automatisation est de moins en moins une option

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

S’abonner

Les enjeux de la supervision du système d’information !

La Threat Intelligence : quand, quoi et comment ?

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Premier cluster Vertica chez Criteo

Les fausses promesses de Tableau et Qlik

S’abonner

Partager l'épisode