Plateformes DSML : les Data Science à l’échelle industrielle
Si l’Open Source et Python règnent en maîtres dans les Data Science, des éditeurs proposent des plateformes pour structurer la création et la maintenance des modèles d’IA. Une étape clé dans la maturité de l’IA en entreprise.
Sommaire
La data est au cœur de la stratégie de transformation des entreprises et la mise en œuvre de l’IA laisse augurer de gros gains de productivité dans de multiples métiers. Les plus avancées ont constitué des cellules data science, des IA labs pour expérimenter et délivrer leurs premiers algorithmes, mais se pose rapidement la question de la montée à l’échelle de ces organisations.
La création de modèles d’IA « à la chaîne » par les data scientists pour les métiers, mais aussi le suivi des performances de ces algorithmes dans le temps nécessite un minimum d’outillage. De nombreux éditeurs se sont ainsi placés sur un marché baptisé DSML par Gartner, acronyme de (plateformes de) Data Science & Machine Learning.
1 Dataiku : un français parmi les leaders
Parmi les leaders de ce jeune marché figure le français Dataiku. L’éditeur a levé près de 247 millions $ depuis sa création en 2013 et il compte notamment GE Aviation parmi ses premiers clients, mais aussi La Mutuelle Générale, Showroom Privé, Levi’s, NXP Semiconductors.
Dernièrement, Dataiku a lancé une version online de sa plateforme, une offre SaaS qui vise notamment les entreprises de taille plus petite. « La transition vers le cloud a permis à des entreprises plus petites d’utiliser la plateforme sans avoir besoin de compétences système spécifiques », souligne Jean-Claude Raveneau, Senior Director Product Management.
La concurrence est particulièrement nombreuse, avec des pure-players, des généralistes, mais aussi des fournisseurs cloud qui veulent attirer un maximum de Data Scientists sur leurs plateformes. Tous les hyperscalers sont aussi présents sur le marché. Si Google Cloud bénéficie de l’excellente image de ses outils d’IA, AWS, Microsoft Azure et Alibaba Cloud proposent des solutions alternatives.
L’atout de leurs offres réside dans l’intégration de ces outils à l’écosystème cloud de chacun, avec un vrai risque de « vendor lock-in ». Le choix du service cloud qui porte le data lake influe fortement sur la plateforme DSML qui sera mise en œuvre.
Les éditeurs « historiques » de ce que l’on appelait autrefois le data mining se sont bien évidemment lancés dans la bataille. IBM mise sur la forte notoriété de Watson pour pousser son offre Watson Studio et le champion de l’analytique SAS promeut sa plateforme Viya auprès de ses clients historiques, avec une offre qui supporte tant le langage SAS que Python.
2 Les acteurs du data mining dans la bataille
Rémi Griveau, Business Solutions Manager chez SAS précise : « L’offre s’adresse à toutes les entreprises, qu’elles aient déjà une culture SAS ou pas. Cette culture est un accélérateur à l’adoption, d’autant que ces clients ont la possibilité de capitaliser sur leur existant SAS sans partir d’une feuille blanche. » L’expert souligne que la dernière version « Cloud-Native » de SAS Viya doit simplifier les petits déploiements pour les entreprises de petite taille ou pour les projets ciblés.
Chaque plateforme a ses atouts et ses faiblesses, que ce soit dans l’acquisition et la préparation des données, le support du machine learning ou les outils collaboratifs mis à disposition des data scientists et des utilisateurs métiers.
Lire aussi : Eviden va tripler la capacité de calcul de la Finlande avec un nouveau supercalculateur d'IA
Toutefois, toutes ces offres se rejoignent sur les composantes open source qu’elles embarquent. C’est notamment le cas des librairies de machine learning /deep learning Python, ainsi que les notebook Jupyter qui proposent des dossiers numériques dans lesquels tous les éléments du projet de modèle sont stockés.
Si le marché des solutions DSML va certainement se concentrer dans les années à venir, celui-ci offre un vaste choix d’approches et de solutions qui permettent déjà de franchir une étape de maturité dans le déploiement de l’IA dans les entreprises.
3 Décryptage d’experts
« L’atout d’une plateforme DSML est la réduction de temps Devops, c’est-à-dire le temps de configuration d’environnement de développement et des serveurs. Le temps d’installation est rapide et les coûts de mise en oeuvre sont relativement faibles.
Les organisations peuvent ainsi consacrer leur temps au développement des algorithmes et peuvent être plus efficaces.
En outre, le temps de déploiement de l’outil est réduit grâce aux outils déjà intégrés dans les plateformes. Par exemple, sur Google Cloud Platform et Microsoft Azure il est très facile de packager la solution et de la déployer. »
Shriman Tiwari – Tech Lead Data Science / Data Engineering chez Keyrus
« Il est fortement recommandé de réaliser un audit préalable afin d’identifier les cas d’usage et les objectifs des projets Machine Learning et Data Science.
La plateforme doit être choisie en fonction de la quantité de données, du niveau de sécurité souhaité selon la sensibilité des données, mais aussi de la taille de l’équipe Data Science & ML, le budget, les contraintes en termes de temps et la nature des projets.
Deep learning, traitement d’images, etc. demandent des ressources de calcul puissantes comparé au Machine Learning et aux algorithmes plus classiques. Tous ces critères, seront des clés qui permettront d’aider l’entreprise à choisir le bon outil qui contient tous les services nécessaires pour faire de la DS & ML, ou bien la combinaison d’outils qui couvre les attentes et répond au mieux aux besoins de l’entreprise. »
Chems Eeedine Nabti – Lead Data Scientist chez Ippon Technologies
4 Les fonctions clés d’une plateforme de DSML
- Définition du besoin
- Ingestion de la donnée
- Préparation de la donnée
- Exploration des données avec des outils interactifs
- Feature engineering (extraction des informations depuis la donnée brute)
- Création et entraînement des modèles d’IA
- Test des modèles
- Déploiement des modèles en production
- Monitoring des modèles
- Maintenance des modèles
- Gouvernance des données et des modèles
- Brique d’explicabilité des modèles d’IA (XAI)
- Suivi de la valeur Business
- Fonctions de collaboration
5 Les principales offres du marché
Editeurs Solutions
Alibaba Cloud Platform for AI, Data Science Workshop
Altair Altair Knowledge Works
Alteryx Alteryx APA Platform
Amazon Web Services Amazon SageMaker
Anaconda Anaconda Enterprise Edition
Cloudera Cloudera Machine Learning
Databricks Unified Data Platform
Dataiku Data Science Studio
DataRobot DataRobot Enterprise AI Platform
Domino Domino Data Science Platform
Google Google Cloud AI Platform
H2O.ai H2O Driverless AI
KNIME KNIME Analytics Platform
MathWorks Matlab
Microsoft Azure Machine Learning
RapidMiner RapidMiner Studio
Samsung SDS Brightics AI
SAS SAS Viya
Tibco Software Tibco Data Science Platform
Sur le même thème
Voir tous les articles Data & IA