Spécial Big Data : 3 - A la recherche des 'Data scientists'

Le Big Data analytique implique des compétences nouvelles visant les technologies de traitement de données très diverses. D'où le nouveau métier de Data scientist.

Publié par La rédaction le 25 juin 2013 | Mis à jour le 2 mars 2021 à 02:20

Lecture
5 min

Imprimer

C'est certainement la face cachée du Big Data, voire son talon d'Achille. Il existe bien un enjeu majeur au-delà du stockage de données hétérogènes dans des environnements dispersés (cf. précédents articles 1 et 2) : comment accéder aux bonnes compétences pour exploiter statistiquement la donnée, lui apporter plus de valeur et en faire un outil de prise de décision ?

Cette difficulté provient du positionnement original du Big Data analytique, qui se définit entre technologies de stockage et analyses statistiques. Deux approches qui ne sont naturellement pas compatibles, car elles proviennent de deux mondes faisant appel à des compétences différentes. Le professionnel IT, plus spécifiquement le spécialiste du stockage, n'est pas un statisticien - et inversement. Même s'ils peuvent afficher, parfois, un parcours commun à travers les mathématiques. D'ailleurs, chacun d'entre eux dépend d'un métier différent dans l'entreprise.

La communauté du SQL sur les bases structurées

On pourra objecter que l'analytique n'est pas chose nouvelle dans le monde des IT. Et que les outils de BI (Business Intelligence) sont très répandus. Il faut cependant différencier ces deux approches, comme déjà évoqué.

La BI s'appuie principalement sur l'analyse de la donnée structurée. Cette donnée s'exprime sous la forme de tableaux, en lignes et colonnes, où la ligne correspond, généralement, à une fiche, et la colonne à un champ (par exemple une fiche individu est composée des champs 'nom', 'prénom', etc.). D'où la notion de structure. L'outil d'interrogation de ces bases de données, généralement associées aux métiers de gestion de l'entreprise (fichiers comptables, salariés, clients, etc.), utilise un langage commun de requêtage, le SQL (Structured Query Language).

Les outils de BI reposent donc d'une part sur les bases de données structurées de l'entreprise, qualifiées de SQL ; et d'autre part sur un langage d'interrogation de ces bases, qui leur a donné son nom pour les qualifier puisqu'il s'agit du langage SQL. Cette base est quasiment la même pour tous les acteurs du marché, qu'ils se concentrent sur la base de données ou sur son interrogation.

Le SQL est ainsi commun à toutes les plateformes de gestion, donc largement pratiqué. La réalisation d'analyses sur ces environnements se révèle être une démarche relativement maîtrisée qui s'exprime à travers des compétences répandues.

L'émergence du NoSQL sur les bases non structurées

Le Big Data est une réponse à la multiplication des données qu'accumule l'entreprise ou auxquelles elle peut se donner accès. Certaines de ces données sont qualifiées de « non structurées », c'est-à-dire qu'elles n'entrent pas dans le moule SQL et ne peuvent être organisées en colonnes et en champs.

Citons les mails, les fichiers bureautiques, les images, les vidéos, les tweets, etc. Le modèle SQL d'interrogation des bases de données ne s'applique pas ici. même si de plus en plus d'éditeurs tentent de proposer des outils de requêtage NoSQL qui se rapprochent de ce modèle. Concrètement, cela signifie que la compétence traditionnelle des spécialistes des bases de données en matière d'analyse et de BI ne s'applique pas sur la très grande majorité des données évoluant dans le Big Data !

Il y a deux problématiques liées à la création d'analytiques sur les données en Big Data:

La première provient de l'environnement des données. Les compétences SQL ne permettent pas d'exploiter des données non structurées. A commencer par la gestion de ces données à travers l'environnement Hadoop et le système de fichiers HDFS.
La seconde est liée à l'absence de support du langage SQL par les bases de données non structurées. L'interrogation des bases Big Data pour réaliser de l'analytique doit donc être créée via des langages supportés par la plateforme Hadoop (en particulier Java) et les bases NoSQL.

De la difficulté à cumuler les compétences

Comment ces problématiques se traduisent-elles sur le terrain ? Aujourd'hui, la réalisation d'analytiques sur le Big Data nécessite des compétences que ne possèdent pas tous les développeurs d'outils de BI ou les utilisateurs de tableurs de type Excel ! Ces compétences doivent porter sur le pilotage des données Big Data en environnements non structurés et l'application de statistiques. Nous sommes donc là en présence de deux métiers qui s'ignorent : l'informaticien et le statisticien.

Pourtant un métier pourrait émerger, dont la promesse est de réunir ces deux compétences : le Data scientist. La fonction a un nom, il faut maintenant trouver la perle rare qui saura réunir ces compétences. Comme son nom l'indique, ce nouveau métier réunit les mondes de la donnée, donc du stockage en Big Data et du traitement de la donnée, et celui des sciences - mathématiques et statistiques.

Ne le cherchez pas dans les cursus de formation universitaires et de formation des ingénieurs, ces deux mondes ne cohabitent pas. ou tout du moins pas encore. Certaines universités américaines proposent déjà des formations de Data Scientist, les écoles européennes et françaises suivront. Attendons encore 2 à 3 ans avant que sortent des moules les premiers ingénieurs Data scientists diplômés.

En attendant, le focus des entreprises qui lancent des solutions de Big Data analytique porte principalement sur le déploiement des infrastructures de stockage et de compilation des données. Autour des technologies Hadoop.

Quelques intégrateurs et sociétés de services ont commencé à compenser l'absence de Data scientist par la réunion d'équipes pluridisciplinaires réunissant des spécialistes des IT et des statisticiens. Un mariage délicat pour le moment, surtout concentré sur la création des premiers PoC (Proof of concept). Les entreprises les plus avancées dans le Big Data analytique sont rares, mais existent, à l'image d'IBM. Le recrutement de scientifiques et statisticiens par une société dont la culture est à la fois orientée IT et R&D leur offre un avantage unique, celui de disposer de Data scientists.

Si la perle rare du Big Data analytique, le Data Scientist, existe, encore faut-il la trouver. ou faire appel au bon partenaire.
_____________
Ref.: DOSSIER :
Spécial Big Data : 1 - Que recouvrent au juste le Big data et la gestion de données?
Spécial Mobilité : 2 - Tous ces enjeux qui pèsent sur la DSI
Spécial Cloud Computing : 1 - L'intérêt des architectures ouvertes
Spécial Réseaux sociaux professionnels: 1- L'effet consumérisation
___

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Spécial Big Data : 3 - A la recherche des 'Data scientists'

La communauté du SQL sur les bases structurées

L'émergence du NoSQL sur les bases non structurées

De la difficulté à cumuler les compétences

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

S’abonner

Les enjeux de la supervision du système d’information !

La Threat Intelligence : quand, quoi et comment ?

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

La communauté du SQL sur les bases structurées

L'émergence du NoSQL sur les bases non structurées

De la difficulté à cumuler les compétences

S’abonner

Partager l'épisode