Avec Gobblin, LinkedIn digère mieux le Big Data

Linkedin met un coup de projecteur sur Gobblin, son framework Big Data. Il aide le réseau social à concentrer de grands volumes d'informations issus de multiples sources, données qui vont ensuite être analysées et traitées dans un cluster Hadoop.

Publié par Jacques Cheminat le 27 nov. 2014 | Mis à jour le 2 mars 2021 à 15:30

Lecture
3 min

Imprimer

Les réseaux sociaux dévoilent petit à petit leurs recettes pour faire fonctionner leurs infrastructures hors norme (lire Facebook repense son architecture réseau), mais également pour s'adapter à la quantité de données produites et à analyser. C'est dans ce cadre que LinkedIn a donné des éléments complémentaires sur Gobblin, son framework d'ingestion de Big Data. Dans un article intitulé, « Gobblin'Big Data with ease », Lin Qiao, ingénieure, a expliqué comment LinkedIn a simplifié l'ingestion de grandes quantités de données à destination de datawarehouses basés sur Hadoop.

Tout démarre par la récolte des données pour créer un « jeu de données interne », souligne l'ingénieure. Ce dataset comprend une multitude d'informations : les profils des membres, les actions des utilisateurs comme un commentaire ou un article, etc. Ces renseignements sont issus des bases de données de LinkedIn (Oracle, MySQL et Espresso). Il faut ajouter à cela le informations issues du système des logs d'évènements (géré via un outil maison baptisé Kafka), celle du module Databus capable de gérer les modifications des données de manière incrémentale et encore celles provenant de données d'applications tierces comme Salesforce, Google ou Twitter. Au total, Linkedin a créé des tuyaux de données capables de gérer des centaines de To par jour qui sont ensuite reversées dans un cluster Hadoop (ch schéma ci-dessous).

Unifier les pipelines et créer une passerelle avec Hadoop

Cependant la diversité des types de données présente une contrainte pour LinkedIn, car il y a plusieurs variables à prendre en compte. Il faut choisir les sources que l'on va capter (évènements, fichiers de logs, etc.), les formats de flux (par lots ou en continu) et aussi les protocoles utilisés (REST, Kafka, Camus, Lumos - trois projets propres à LinkedIn - ou des API spécifiques). Au final avec ce système, Lin Qiao constate l'existence « de 15 types de pipelines d'ingestion de données avec la problématique d'assurer un même niveau de qualité, d'interopérabilité et de fonctionnalité sur les données ».

C'est pour simplifier ce processus que Gobblin a été créé. Il a pour objectif d'unifier les tuyaux en un seul et ainsi alimenter directement le cluster Hadoop. Gobblin intègre « des adaptateurs prêts à l'emploi pour l'ensemble des sources de données comme Salesforce, MySQL, Google, Kafka et Databus, etc » (cf schéma ci-dessous). Le framework va s'appuyer sur Yarn Manager pour faciliter « l'ingestion par lots ou de manière continue ». Aujourd'hui, Gobblin est utilisé pour gérer seulement des dizaines de To, annonce l'ingénieure. « Nous sommes actuellement en train de migrer nos datasets externes et internes dans Gobblin, pour tester les API internes, la plateforme et le support. Au début 2015, nous prévoyons de migrer certains de nos pipelines dans Gobblin ». Par ailleurs, LinkedIn prévoit de mettre le framework en Open Source pour que les développeurs puissent proposer des jeux de données supplémentaires et d'autres connecteurs.

Crédit Photo : phipatbig-Shutterstock

Publié par :
Jacques Cheminat

Tags associés :

#LINKEDIN

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Avec Gobblin, LinkedIn digère mieux le Big Data

Unifier les pipelines et créer une passerelle avec Hadoop

Crédit Photo : phipatbig-Shutterstock

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

S’abonner

Briser les barrières de la sécurité en entreprise

Symphony 25 : Sécuriser du code au cloud jusqu'au SOC [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Unifier les pipelines et créer une passerelle avec Hadoop

Crédit Photo : phipatbig-Shutterstock

S’abonner

Partager l'épisode