Pour gérer vos consentements :

Plateformes DSML : les Data Science à l’échelle industrielle

Publié par Philippe Leroy le | Mis à jour le

Si l’Open Source et Python règnent en maîtres dans les Data Science, des éditeurs proposent des plateformes pour structurer la création et la maintenance des modèles d’IA. Une étape clé dans la maturité de l’IA en entreprise.

La data est au cœur de la stratégie de transformation des entreprises et la mise en œuvre de l’IA laisse augurer de gros gains de productivité dans de multiples métiers. Les plus avancées ont constitué des cellules data science, des IA labs pour expérimenter et délivrer leurs premiers algorithmes, mais se pose rapidement la question de la montée à l’échelle de ces organisations.

La création de modèles d’IA « à la chaîne » par les data scientists pour les métiers, mais aussi le suivi des performances de ces algorithmes dans le temps nécessite un minimum d’outillage. De nombreux éditeurs se sont ainsi placés sur un marché baptisé DSML par Gartner, acronyme de (plateformes de) Data Science & Machine Learning.

Dataiku : un français parmi les leaders

Parmi les leaders de ce jeune marché figure le français Dataiku. L’éditeur a levé près de 247 millions $ depuis sa création en 2013 et il compte notamment GE Aviation parmi ses premiers clients, mais aussi La Mutuelle Générale, Showroom Privé, Levi’s, NXP Semiconductors.

Dernièrement, Dataiku a lancé une version online de sa plateforme, une offre SaaS qui vise notamment les entreprises de taille plus petite. « La transition vers le cloud a permis à des entreprises plus petites d’utiliser la plateforme sans avoir besoin de compétences système spécifiques », souligne Jean-Claude Raveneau, Senior Director Product Management.

La concurrence est particulièrement nombreuse, avec des pure-players, des généralistes, mais aussi des fournisseurs cloud qui veulent attirer un maxi­mum de Data Scientists sur leurs plateformes. Tous les hyperscalers sont aussi présents sur le marché. Si Google Cloud bénéficie de l’excellente image de ses outils d’IA, AWS, Microsoft Azure et Alibaba Cloud proposent des solutions alternatives.

L’atout de leurs offres réside dans l’intégration de ces outils à l’écosystème cloud de chacun, avec un vrai risque de « vendor lock-in ». Le choix du service cloud qui porte le data lake influe fortement sur la plateforme DSML qui sera mise en œuvre.

Les éditeurs « historiques » de ce que l’on appelait autrefois le data mining se sont bien évidemment lancés dans la bataille. IBM mise sur la forte notoriété de Watson pour pousser son offre Watson Studio et le champion de l’analytique SAS promeut sa plateforme Viya auprès de ses clients historiques, avec une offre qui supporte tant le langage SAS que Python.

Les acteurs du data mining dans la bataille

Rémi Griveau, Business Solutions Manager chez SAS précise : « L’offre s’adresse à toutes les entreprises, qu’elles aient déjà une culture SAS ou pas. Cette culture est un accélérateur à l’adoption, d’autant que ces clients ont la possibilité de capitaliser sur leur existant SAS sans partir d’une feuille blanche. » L’expert souligne que la dernière version « Cloud-Native » de SAS Viya doit simplifier les petits déploiements pour les entreprises de petite taille ou pour les projets ciblés.

Chaque plateforme a ses atouts et ses faiblesses, que ce soit dans l’acquisition et la préparation des données, le support du machine learning ou les outils collaboratifs mis à disposition des data scientists et des utilisateurs métiers.

Toutefois, toutes ces offres se rejoignent sur les composantes open source qu’elles embarquent. C’est notamment le cas des librairies de machine learning /deep learning Python, ainsi que les notebook Jupyter qui proposent des dossiers numériques dans lesquels tous les éléments du projet de modèle sont stockés.

Si le marché des solutions DSML va certainement se concentrer dans les années à venir, celui-ci offre un vaste choix d’approches et de solutions qui permettent déjà de franchir une étape de maturité dans le déploiement de l’IA dans les entreprises.

Décryptage d’experts

« L’atout d’une plateforme DSML est la réduction de temps Devops, c’est-à-dire le temps de configuration d’environnement de développement et des serveurs. Le temps d’installation est rapide et les coûts de mise en oeuvre sont relativement faibles.

Les organisations peuvent ainsi consacrer leur temps au développement des algorithmes et peuvent être plus efficaces.
En outre, le temps de déploiement de l’outil est réduit grâce aux outils déjà intégrés dans les plateformes. Par exemple, sur Google Cloud Platform et Microsoft Azure il est très facile de packager la solution et de la déployer. »

Shriman Tiwari – Tech Lead Data Science / Data Engineering chez Keyrus

« Il est fortement recommandé de réaliser un audit préalable afin d’identifier les cas d’usage et les objectifs des projets Machine Learning et Data Science.
La plateforme doit être choisie en fonction de la quantité de données, du niveau de sécurité souhaité selon la sensibilité des données, mais aussi de la taille de l’équipe Data Science & ML, le budget, les contraintes en termes de temps et la nature des projets.
Deep learning, traitement d’images, etc. demandent des ressources de calcul puissantes comparé au Machine Learning et aux algorithmes plus classiques. Tous ces critères, seront des clés qui permettront d’aider l’entreprise à choisir le bon outil qui contient tous les services nécessaires pour faire de la DS & ML, ou bien la combinaison d’outils qui couvre les attentes et répond au mieux aux besoins de l’entreprise. »

Chems Eeedine Nabti – Lead Data Scientist chez Ippon Technologies

Les fonctions clés d’une plateforme de DSML

  •  Définition du besoin
  •  Ingestion de la donnée
  • Préparation de la donnée
  • Exploration des données avec des outils interactifs
  • Feature engineering (extraction des informations depuis la donnée brute)
  •  Création et entraînement des modèles d’IA
  • Test des modèles
  • Déploiement des modèles en production
  •  Monitoring des modèles
  • Maintenance des modèles
  • Gouvernance des données et des modèles
  • Brique d’explicabilité des modèles d’IA (XAI)
  • Suivi de la valeur Business
  •  Fonctions de collaboration
  • Les principales offres du marché

    Editeurs                                              Solutions

    Alibaba Cloud                                 Platform for AI, Data Science Workshop

    Altair                                                   Altair Knowledge Works

    Alteryx                                               Alteryx APA Platform

    Amazon Web Services              Amazon SageMaker

    Anaconda                                         Anaconda Enterprise Edition

    Cloudera                                          Cloudera Machine Learning 

    Databricks                                       Unified Data Platform

    Dataiku                                            Data Science Studio 

    DataRobot                                     DataRobot Enterprise AI Platform

    Domino                                            Domino Data Science Platform

    Google Google                            Cloud AI Platform

    H2O.ai                                            H2O Driverless AI

    IBM                                                 IBM Watson Studio

    KNIME                                         KNIME Analytics Platform

    MathWorks                               Matlab

    Microsoft                                    Azure Machine Learning 

    RapidMiner                                RapidMiner Studio

    Samsung                                       SDS Brightics AI

    SAS                                                   SAS Viya

    Tibco Software                         Tibco Data Science Platform

     

     

     

     

    La rédaction vous recommande