DSML : la clé dans la complémentarité des plates-formes ?

Magic Quadrant DSML 2024

Gartner aborde le marché des plates-formes DSML sous l’angle de la complémentarité entre offres. Aperçu du paysage concurrentiel.

Difficile de faire avec une seule plate-forme DSML (data science & machine learning) ? Gartner le suggère dans son premier Magic Quadrant consacré à ce segment de marché.

On aura en tout cas soin, dans un contexte de décentralisation des activités de data science, à jauger la complémentarité des plates-formes disponibles, estime le cabinet américain. Tout en évitant de perdre de vue l’aspect décisionnel « dans le brouhaha de la GenAI »…

Couplées à des ressources d’infrastructure, les offres des hyperscalers prennent de l’ampleur, note Gartner. Les autres acteurs ont néanmoins leur carte à jouer sur des éléments tels que la collaboration entre équipes, ajoute-t-il.

Dans ce Magic Quadrant, les interfaces notebook et low code font partie des fonctionnalités considérées comme des capacités standards pour une plate-forme DSML. Même chose pour le support des outils et des processus MLOps. Étaient en revanche optionnels, entre autres :

– Recommandations pour la préparation, l’intégration et la modélisation de données
– Création automatisée de modèles ML sur la base d’une prédiction cible sélectionnée manuellement
– Interfaces de modélisation avancée (simulation, optimisation et use cases basés sur du deep learning)
– Outillage pour les modèles génératifs (sélection et suivi des invites, des modèles et des outputs)
– Techniques et outils augmentant la transparence et l’interprétabilité des modèles

Pour figurer au Quadrant, il fallait toucher certains personas. D’une part, les équipes de data science. De l’autre, des équipes métiers ou multidisciplinaires.
Ce critère coûte leur place à Oracle et à Salesforce, qui bénéficient toutefois l’un et l’autre d’une « mention honorable ». Idem pour Baidu, qui ne satisfaisait pas aux exigences de couverture géographique. Et pour Snowflake, qui n’entrait pas dans le top 20 des fournisseurs en matière d’intérêt client.

18 fournisseurs, 5 hyperscalers

Les fournisseurs ont fait l’objet d’une évaluation sur deux axes. L’un (« vision ») est centré sur les stratégies (sectorielle, géographique, commerciale, marketing, produit…). L’autre (« exécution ») reflète la capacité à répondre efficacement à la demande (expérience client, performance avant-vente, qualité des produits/services…).

Sur l’axe « vision », la situation est la suivante :

Fournisseur
1 Dataiku
2 Google
3 Microsoft
4 Databricks
5 H2O.ai
6 DataRobot
7 SAS
8 AWS
9 Altair
10 Domino Data Lab
11 Cloudera
12 IBM
13 MathWorks
14 Alibaba Cloud
15 Alteryx
16 KNIME
17 Posit
18 Anaconda

Sur l’axe « exécution » :

Fournisseur
1 Databricks
2 Microsoft
3 Google
4 AWS
5 Dataiku
6 Altair
7 IBM
8 Alibaba Cloud
9 SAS
10 DataRobot
11 H2O.ai
12 Cloudera
13 Domino Data Lab
14 KNIME
15 Alteryx
16 MathWorks
17 Posit
18 Anaconda

Cinq grands fournisseurs de cloud d’infrastructure figurent au Quadrant : Alibaba Cloud, IBM, AWS, Google et Microsoft. Les trois derniers sont dans le carré des « leaders ».

Le cœur data science, pas le focus d’AWS

AWS se distingue sur les services d’infrastructure adossés à son offre DSML. Parmi eux, SageMaker HyperPod pour entraîner et servir de grands modèles à l’échelle. Gartner salue aussi sa communauté (capacité à cibler différents groupes d’utilisateurs par des événements physiques et virtuels). Ainsi que les garanties de sécurité/privacy associées aux multiples fournisseurs de modèles de fondation auxquels Bedrock donne accès.
Appréciation moins positive sur le cœur data science : AWS accorde plus d’attention à l’ingénierie ML qu’au décisionnel. L’exhaustivité de son portefeuille peut par ailleurs être synonyme de complexité de choix. Sur le volet, GenAI, les modèles maison Titan ont une notoriété limitée.

… comme de Google

Au contraire d’AWS, Google a droit à un bon point pour son offre de modèles de fondation – y compris ceux de tiers. Gartner salue aussi un portefeuille « équilibré » (l’investissement dans la GenAI n’a pas empêché l’amélioration des capacités DSML de Vertex AI) et la cadence de livraison de nouvelles fonctionnalités.
On ne peut pas en dire autant sur la gouvernance : Google est en retard sur la concurrence. Le groupe américain a par ailleurs tendance à privilégier les use cases ML à son cœur data science. Vertex AI fait en outre moins de sens si on n’investit pas davantage dans GCP, à commencer par le stockage et le traitement de données.

Microsoft pas salué sur l’exploration de données

Sur la partie GenAI, Gartner crédite Microsoft d’un bon et d’un mauvais point. Le premier, pour le niveau d’innovation au sein d’Azure ML (modèles, options de déploiement et tarifications). Le second, à cause des travaux additionnels que l’intégration de GitHub Copilot suppose pour en tirer tout le potentiel entre instances de calcul Azure ML.
Au rang des points positifs, il y a la R&D (« petits » LLM, frameworks de prompt engineering, architectures RAG…) et les ressources de formation proposées. Gartner apprécie moins les capacités d’exploration de données et la séparation des lignes de produits au sein d’Azure ML – en plus de rebrandings fréquents.

Un seul « leader » distingué sur les prix

Un seul des « leaders » a droit à une remarque positive sur ses prix : Altair. Plus précisément, pour la flexibilité du modèle économique, basé sur des unités consommables à travers l’ensemble de sa gamme.
À l’inverse, la tarification est complexe chez Dataiku (modèle associant frais de plate-forme et licences par utilisateur autour de 4 personas). Quant à DataRobot, ses prix sont « parmi les plus élevés » du Magic Quadrant.

DataRobot : une stratégie produit qui questionne

DataRobot a en revanche pour lui la facilité d’usage de ses produits – essentiellement par le niveau d’abstraction. Il se distingue aussi sur sa compréhension du marché (focus sur les équipes multidisciplinaires). Gartner émet davantage de doutes sur ses pratiques opérationnelles (changements dans le top management, turnover des équipes). Même chose concernant la stratégie produit (promotion en tant que plate-forme d’IA, mais focus sur la gestion des données).

Altair doit digérer l’acquisition de RapidMiner

Altair aussi se distingue positivement en termes de compréhension du marché. La mesure de réussite à l’aune des déploiements achevés plutôt qu’à l’usage de la plate-forme en témoigne, assure Gartner. Autre bon point : l’approche sectorielle. L’acquisition de RapidMiner a ouvert des portes, en particulier dans les applications scientifiques.
Cette même acquisition, réalisée en 2022, cause une certaine friction, relève Gartner. Friction qui affecte la cohérence du catalogue d’Altair, par ailleurs positionné loin des autres « leaders » sur l’indicateur d’intérêt client.

Dataiku : une communauté moins active

Chez Dataiku, ce n’est pas l’intérêt client qui pèche, mais la communauté, pas au niveau de celles des principaux concurrents. Autre écueil : la maintenance de l’offre DSML on-prem, qui peut demander beaucoup de ressources.
Le constat est plus favorable sur la collaboration entre équipes, l’aspect gestion du changement et la vision dans le domaine de la GenAI (avec l’initiative LLM Mesh comme emblème).

Databricks : attention à suivre le rythme des mises à jour

Les investissements dans la GenAI et le low-code valent à Databricks un bon point. Il en va de même pour l’acquisition de MosaicML, qui « permet d’utiliser des LLM rapidement, pour moins cher que chez la concurrence »… Gartner apprécie également l’approche unifiée lakehouse + DSML.
On prendra garde à l’évolution rapide du produit, susceptible d’exiger une certaine capacité de « suivi » pour assurer la stabilité des workloads. Attention aussi en cas d’usage d’architectures data hybrides et/ou composables. On notera aussi les retours négatifs de certains utilisateurs concernant la gestion de performance.

Illustration © Gaihong – Adobe Stock