LinkedIn place en Open Source son outil Big Data, WhereHows

Pour disposer d'une vue unifiée de ses silos de données, LinkedIn a bâti un entrepôt de métadonnées couplé à des outils de découverte. Une solution baptisée WhereHows que la société américaine confie à la communauté Open Source, dans l'espoir d'accélérer les développements.

Publié par La rédaction le 4 mars 2016 | Mis à jour le 2 mars 2021 à 14:41

Lecture
3 min

Imprimer

Après Google, Netflix ou Yahoo, un autre grand du Web, LinkedIn, mise sur la communauté Open Source pour l'aider à améliorer un outil maison, en l'occurrence ici sa solution de datamining WhereHows. Ce projet de l'équipe LinkedIn Data, désormais disponible sur GitHub, « fonctionne en créant un entrepôt de données central et un portail pour les processus, les personnes et les connaissances autour de l'élément le plus important de tout système Big Data : les données elles-mêmes », résume Eric Sun, un ingénieur du réseau social professionnel (le deuxième en partant de la droite sur la photo ci-dessus montrant l'équipe du projet). En l'état actuel, l'entrepôt maison agrège les métadonnées de 50 000 jeux de données (soit plus de 15 Po répartis au travers de différents clusters, dont des clusters Hadoop ou Teradata), mais aussi celles de 14 000 commentaires ou de 35 millions d'opérations sur les données et d'éléments concernant la lignée des données.

Comme l'explique Eric Sun dans un billet de blog, la solution vise à unifier la grande diversité des environnements Big Data que LinkedIn a accumulé au fil du temps. « Nous avons différentes sources et bassins de données. Nous écrivons des flux de production pilotés par différents moteurs d'ordonnancement et nous supportons de nombreux moteurs de transformation différents utilisés pour traiter et créer des données dérivées, décrit l'ingénieur. Cette forme de spécialisation est intéressante car elle nous donne accès au meilleur outil pour chaque tâche ; elle crée néanmoins une nouvelle série de problèmes. » C'est cette difficulté à donner du sens au flux de données global qui a donné naissance à WhereHows, afin d'améliorer la productivité d'employés perdus dans de multiples silos d'informations et de dénicher de nouvelles corrélations.

Les multiples sources de données de LinkedIn

Après avoir mis en place une équipe chargée de construire un datawarehouse regroupant les données essentielles des différents silos, LinkedIn s'est lancé dans la construction d'un entrepôt de métadonnées, WhereHows, afin de « simplifier les problèmes de découverte de données et de flux ». Un travail de longue haleine qu'Eric Sun juge loin d'être achevé. Mais le passage en Open Source devrait aider à accélérer les développements, espère LinkedIn. Pour l'heure, l'entrepôt est accessible via une application Web et via une API. Le portail offre des outils de navigation, de recherche et de visualisation des liens de parenté associés à des fonctions communautaires (permettant des annotations par exemple).

L'architecture autour de WhereHows dans le SI de LinkedIn.

Mais, comme l'explique Eric Sun, la clef de la technologie réside dans deux éléments clefs. L'intégration des données de différentes sources (Hadoop, Hive ou Teradata) dans un « modèle universel » d'abord. C'est ce qui permet à l'outil, par exemple, d'effectuer une recherche à travers l'ensemble de l'environnement. L'information de parenté ensuite. « Le pont permettant de connecter » les métadonnées des jeux de données et celles relatives aux traitements, selon l'ingénieur.

Google veut faire de Dataflow un projet incubateur Apache

La Poste Courrier préposée à transformer le Big Data en or

Cédric Villani, « Plus il y aura d'IA, plus il y aura besoin des mathématiciens »

Crédit photo : LinkedIn

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

LinkedIn place en Open Source son outil Big Data, WhereHows

Les multiples sources de données de LinkedIn

Crédit photo : LinkedIn

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Les multiples sources de données de LinkedIn

Crédit photo : LinkedIn

S’abonner

Partager l'épisode