Pour gérer vos consentements :

Josh Wills, Data Scientist chez Cloudera

Publié par La rédaction le | Mis à jour le

En direct de la Silicon Valley : rencontre inattendue avec le Data Scientist de la première plateforme Hadoop Big Data analytique open source, Cloudera.

Palo Alto : Il est parfois des rencontres inattendues qui rythment nos voyages. Ainsi, lors de notre visite à Cloudera, nous avons rencontré Josh Wills, qui exerce le métier - nouveau et très recherché - de data scientist, qui plus est chez le leader du Big Data Hadoop.

Josh Wills est un jeune statisticien. Sa première approche du monde IT, il la doit à Google. À l'époque, le moteur de recherche rencontrait une difficulté majeure : comment exploiter la masse des informations alimentée par son service Analytics ? Difficile de démarrer sous de meilleurs auspices, à condition d'avoir la santé ! Depuis, Josh Wills se déclare meilleur en statistiques qu'en ingénierie logicielle.

Qu'est-ce qu'un data scientist ?

« Je suis d'abord un 'nerd des maths' qui trouve que la visualisation c'est cool ! », nous a affirmé Josh Wills. Pour lui, un data scientist doit d'abord passer beaucoup de temps à nettoyer la donnée. « Plus propre elle sera, plus efficace sera l'analytique. Nous devons penser à résoudre des problèmes et à basculer les données dans un environnement opérationnel. Je passe mon temps à essayer de multiples idées, à paralléliser tout ce que je fais, à trouver des solutions en 6 mois contre plusieurs années auparavant, et à réaliser des recherches reproductibles. »

Comme personne ne peut maitriser tous les processus technologiques, la première étape d'un projet analytique sera de créer une équipe. « Informaticiens et statisticiens ne parlent pas le même langage. Ils devront pourtant créer un modèle, tout mesurer, expérimenter, tester encore et toujours. Puis trouver de nouveaux modèles. Avec le risque de créer un modèle complexe que personne ne comprendra ! »

La complexité tient souvent dans l'étendue des volumes de données à traiter. C'est pourquoi, pour amortir les coûts, les acteurs de l'analytique doivent créer de l'automatisation. Un point de vue auquel adhère Josh Wills, qui se veut cependant prudent : « Optimiser un modèle ne se traduit pas toujours par l'optimisation du business. Nous ne croyons que dans la production, mais il existe un gap entre le business model et machine model. »

Un métier en devenir

Selon l'étude McKinsey « Global Institute Big Data Report », de 140.000 à 190.000 postes de data scientist devraient être créés aux États-Unis, principalement dans la santé. « Les outils sont là, mais les gens ne savent pas les utiliser, ni établir les passerelles pour cela. Toutes les universités dans le monde devraient avoir un cursus data scientist ».

Quant aux difficultés qu'il rencontre dans l'exercice de son métier, Josh Wills les exprime sans ambages : « Le volume est un problème, le rythme de changement l'est également. Tout le monde a des problèmes d'ETL. Et nous n'avons pas besoin de programmeurs Java. », probablement un retour d'expérience malheureux. Et comment démarrer un projet ? « La recherche est le premier 'use case' d'Hadoop, car toute information a un document. »

Notre dernière question portera sur le prix d'un data scientist sur le marché ? « Le prix dépend de l'activité. Par exemple dans la pub c'est très cher, mais ce n'est pas défini ». Et de nous rappeler qu'une rémunération peut être indexée à un résultat, comme par exemple à un chiffre d'affaires réalisé à la suite d'une analyse.

Ses yeux se mettent alors à briller. Les bons data scientists (et les data scientists eux-mêmes) sont une denrée rare, et pour quelques années encore avant que les cursus de formation ne crachent leurs diplômés, formés mais inexpérimentés.

Un métier qui n'a pas de prix. pour le moment !

Quant aux développeurs et autres consultants informatiques qui prétendent à l'expertise du statisticien pour exploiter les Big data, la concurrence ne sera pas rude avant longtemps. Ce n'est pas pour rien que Josh Wills nous quitte en conservant l'éclat brillant de ses yeux et son sourire entendu.

Il se murmure même chez Cloudera que le million de dollars en rémunération d'une mission de data scientist n'a rien d'extravagant au vu du service rendu. Les IT ont encore de quoi nous faire rêver.

Voir aussi

Quiz Silicon.fr - Le vocabulaire du cloud

Quiz Silicon.fr - 10 questions sur Alan Turing

La rédaction vous recommande