Florian Douetteau, Dataiku : « Le GDPR va remodeler les applications Big Data »

Le Pdg de Dataiku, une des start-ups françaises les plus en vue du Big Data, commente l'évolution des projets de Data Science dans les entreprises. Et leurs difficultés à notamment intégrer les contraintes réglementaires.

Publié par La rédaction le 10 mars 2017 | Mis à jour le 3 janv. 2022 à 09:28

Lecture
5 min

Imprimer

Dataiku est une des principales pépites de la French Tech en matière de Big Data. Pour ne pas dire celle qui est la plus fréquemment citée si on se fie aux échanges que nous avons eus sur le salon Big Data Paris, qui a eu lieu les 6 et 7 mars. La société vient d'annoncer la sortie de la version 4 de sa technologie, évolution qui facilite notamment les passages en production des applications de Data Science et inclut des fonctions de traçabilité des données afin d'aider les entreprises à se conformer à leurs obligations réglementaires. Pour Florian Douetteau, ancien d'Exalead qui a co-fondé Dataiku en 2013, ces inflexions correspondent aux attentes actuelles du marché.

Silicon.fr : Où en sont les entreprises françaises dans leur appropriation des technologies d'intelligence artificielle ?

Florian Douetteau : La majorité d'entre elles sont encore en phase de découverte ou d'apprentissage. On peut estimer que 20 % des entreprises ont toutefois démarré un prototype sur le sujet, une proportion qui monte à 50 % dans notre base de clients. C'est le cas de la plupart des grands acteurs du e-commerce et du retail, qui y ont recours pour optimiser leur ciblage marketing, la personnalisation de leurs offres, leur logistique ou mieux détecter la fraude. Le constat est similaire dans la banque et l'assurance, des acteurs en profonde mutation car ils ont besoin de renouveler leurs offres. C'est plus difficile dans l'industrie où prouver la valeur de ces technologies nécessite de capter des données, de faire des tests, de changer des processus de fabrication. On parle là plutôt de cycles de 5 à 10 ans. Il se passera encore beaucoup de temps avant qu'un moteur d'avion ne soit entièrement vérifié par Machine Learning.

Grâce à notre présence dans 15 pays désormais, nous observons aussi de réelles différences en fonction de la nationalité des entreprises. Avec une appétence plus prononcée en Grande-Bretagne ou aux Etats-Unis. Dans des entreprises du Fortune 500, on voit naître de nouvelles plates-formes d'exploitation de la donnée avec 100 ou 200 utilisateurs. Sur la plateforme Dataiku, plus de 50 clients ont aujourd'hui des applications de Machine Learning en production.

Sait-on déjà quel algorithme de Machine Learning est le plus adapté à telle problématique ou le tâtonnement est-il un passage obligé ?

F.D. : Les connaissances sont déjà solides en la matière. On sait, par exemple, que les chaînes de Markov sont efficaces pour lutter contre la fraude aux paiements. Ou que certains types de Deep Learning donnent de bons résultats pour le traitement d'images. Cette grammaire de ce qui fonctionne ou pas émerge sur le marché. Elle s'installe d'autant plus vite que la culture technologique qui entoure le Machine Learning et le Big Data est une culture de partage, impulsée par des sociétés comme Facebook, Google ou AWS. Même si des vendeurs de solutions plus classiques comme IBM ou Palantir ne s'inscrivent évidemment pas dans ce type de démarche.

Si le domaine de la recherche est fécond, les retours d'expérience des entreprises montrent que le passage des prototypes Big Data à l'application en production reste très difficile.

F.D. : Cela peut effectivement poser problème car on parle de technologies nouvelles. C'est d'ailleurs la raison qui nous a poussés à bâtir une plateforme afin de réduire le coût de cette transition. La logique étant, à l'intérieur de cette plateforme, de procéder à des mises en production agiles. C'est d'autant plus important avec le Machine Learning où le premier modèle qui sera essayé a de bonnes chances de ne pas se révéler efficace avec les données de production. C'est aussi un domaine où il faut procéder à de nombreux tests comparatifs de modèles, ou AB Testing. Si les mises en production sont difficiles, le retour de bâton sera sérieux.

Le passage en production soulève également souvent la question du respect des réglementations.

F.D. : On observe effectivement ce phénomène, d'autant plus que notre solution vient souvent compléter un datalake existant, où les données ont été agrégées sans toujours réfléchir aux implications réglementaires. Tous nos clients américains se posent la question de l'auditabilité de leurs processus analytiques, au regard de Sarbanes Oxley ou des législations sur la santé. De ce côté-ci de l'Atlantique, le règlement européen GDPR va amener des contraintes de ce type, en précisant les obligations ambiguës qui pèsent aujourd'hui sur les entreprises et en alourdissant significativement les amendes en cas d'infraction. Par exemple, si on effectue un profilage, il faudra préciser les données qui sont utilisées, y compris celles de tiers. Dans la plupart des cas, cela signifie une reconstruction de bout en bout des processus analytiques.

F. Douetteau, Dataiku : « Nul besoin de data scientists superstars pour le Big Data »

Big Data : Blablacar copilote sa BI avec HP, Tableau et Dataiku

Publié par :
La rédaction

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Florian Douetteau, Dataiku : « Le GDPR va remodeler les applications Big Data »

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

S’abonner

Partager l'épisode