Recherche

Bases de données cloud : ce qui se dessine après l'ère lakehouse

L'approche lakehouse se diffuse sur le marché des SGBD cloud (dbPaaS), qui tendent, sous diverses formes, vers les data fabrics et les écosystèmes de données.

Publié par Clément Bohic le | Mis à jour le
Lecture
11 min
  • Imprimer
Bases de données cloud : ce qui se dessine après l'ère lakehouse
© généré par IA

La géopolitique, inhibitrice du développement mondial des bases de données transactionnelles distribuées ?

Gartner est de cet avis, qu'il communique dans le cadre de son dernier Magic Quadrant consacré aux SGBD cloud (dbPaaS). Ce type de base de données, sujet à une "acceptation croissante", était exploité en Chine depuis des années, souligne le cabinet américain.

Autre tendance, évoquée de longue date : les écosystèmes de données, envisagés comme une continuité des data fabrics, elles-mêmes inscrites dans la convergence entre transactionnel et analytique. Ces derniers temps, le phénomène s'est notamment manifesté par l'intégration d'interfaces SQL chez des fournisseurs de data lakes - et d'autres architectures de stockage - ne proposant pas de bases de données à proprement parler, ni même de fonctionnalités SGBD de type sauvegarde/restauration ou DR. Les bases de données cloud peuvent elles-mêmes utiliser ces outils par fédération. Dans ce contexte se développe l'usage de l'ELT, de la réplication et du streaming pour ingérer des données dans une couche de staging ; les transformations, la data quality et le développement low code étant gérés grâce aux capacités de calcul des data warehouses/lakehouses.

20 fournisseurs, 9 "leaders"

D'une année à l'autre, les critères fonctionnels à respecter pour figurer au Magic Quadrant n'ont pas fondamentalement changé. Il y a néanmoins eu quelques changements sur les use cases pris en considération et sur leur définition, bien qu'il s'agissait toujours d'en satisfaire au moins 1 sur 6.

Use cases 2023
Use cases 2024
TransactionnelTransactionnel
Transactions "légères" (simples, à fort volume)Transactions "légères" (gros volumes à haute concurrence et basse latence)
"Intelligence opérationnelle" (grand nombre de requêtes analytiques concurrentes)Gestion d'état d'applications
Data warehouses traditionnelsData warehouse
Data warehouses logiques (données physiquement réparties sur plusieurs plates-formes)Lakehouse
Data lake & machine learningAnalyse d'événements (écriture à haute fréquence et grand volume)

Une fois encore, Gartner n'a évalué que les offres managées, fournies en cloud public ou privé. Il n'a pas pris en compte les bases de données hébergées sur du IaaS. La disponibilité d'options de déploiement sur site, hybrides et/ou multicloud était facultative. La GenAI aussi, d'autant plus qu'elle devient une commodité, constate le cabinet américain. Tout comme, dans une certaine mesure, les architectures lakehouse, qui ont néanmoins encore une marge de progression sur la gestion des workloads interactifs et temps réel.

L'évaluation des fournisseurs se fait sur deux axes. L'un, nommé "exécution", est censé refléter la capacité à répondre effectivement à la demande (expérience client, performance avant-vente, qualité des produits/services...). L'autre, appelé "vision", se centre sur les stratégies (sectorielle, géographique, commerciale, marketing, produit...).

Sur l'axe "exécution", la situation est la suivante :

RangFournisseurÉvolution annuelle
1AWS=
2Google+1
3Oracle+1
4Microsoft-2
5Databricks+1
6MongoDB+1
7Snowflake+2
8Alibaba Cloud-3
9InterSystems-1
10IBM+2
11Huawei Cloudnouvel entrant
12SAP-1
13Teradata-3
14Cloudera-1
15Redis-1
16Neo4j=
17SingleStorenouvel entrant
18Couchbase=
19Cockroach Labs-2
20EDB-5

Sur l'axe "vision" :

RangFournisseurÉvolution annuelle
1Google=
2Microsoft+2
3Oracle=
4AWS-2
5Databricks=
6SAP+1
7IBM+1
8Snowflake+1
9Teradata-3
10Alibaba Cloud=
11MongoDB=
12Cloudera=
13Redis=
14Neo4j=
15InterSystems=
16Huawei Cloudnouvel entrant
17Couchbase=
18SingleStorenouvel entrant
19Cockroach Labs-3
20EDB-1

De nombreuses réserves sur la gestion des coûts

Alibaba Cloud se distingue par sa tarification compétitive (d'une année à l'autre, les prix ont baissé, en parallèle d'innovations sur la compression et le serverless, entre autres). Pour autant, la variété des modèles de pricing, combinée à une facturation découplée pour certaines ressources au nom de la flexibilité, peut s'avérer difficile à maîtriser. Et les partenaires manquent pour aider à ce sujet.

Difficile, également, de prédire les coûts chez Databricks, avec son modèle fondé sur des unités de consommation. Notamment pour les workloads à charge irrégulière. Gartner trouve par ailleurs à redire sur la prise en main des outils de gestion des coûts.

Chez Google, le suivi des dépenses peut se révéler délicat, a fortiori lorsqu'on interface aux bases de données des services fondés, à l'image de Dataflow, sur des unités de consommation.

La prédictibilité des coûts n'est pas non plus le point fort de Snowflake. Oracle reste quant à lui perçu, de par son historique, comme un fournisseur aux offres onéreuses.

Alibaba Cloud : (toujours) l'inconnue géopolitique

Difficile, concernant Alibaba, d'écarter le risque géopolitique. Lequel limite, entre autres, les interactions avec Arm et NVIDIA. Gartner pointe aussi une disponibilité encore limitée des services du groupe chinois hors de l'Asie (moins de régions et d'AZ que les concurrents).

Alibaba a pour lui une présence sectorielle importante et différenciée. Ainsi qu'un écosystème de partenaires qui s'est développé depuis le précédent Magic Quadrant des bases de données cloud (collaborations avec Salesforce, Neo4j, TiDB, Milvus...), s'ajoutant au poids de sa communauté open source.

AWS, encore limité sur le multicloud

Salué l'an dernier pour la couverture fonctionnelle de son offre et la capacité à créer du liant entre ses solutions, AWS l'est à nouveau cette année. Gartner souligne aussi l'exhaustivité de ses partenariats et de sa présence géographique.

Si l'intégration entre les services d'AWS avance, par exemple avec l'unification de SageMaker et le concept du "zero-ETL", elle peut rester complexe. La prise en charge des déploiements hybrides et multicloud demeure, en outre, limitée, malgré la disponibilité de connecteurs natifs et le support de moteurs comme Apache Spark (les clients tendent à utiliser des orchestrateurs tiers).

Databricks ne convainc pas sur l'UI

Pionnier du lakehouse, Databricks n'est plus - et de loin - le seul sur ce segment. Gartner salue plutôt ses investissements dans la GenAI (dont l'acquisition de MosaicML), traduits par le développement de ses propres LLM. Bons points également pour le catalogue Unity (basculé en open source dans la lignée de celui de Snowflake) et pour le format Delta Lake (concurrent d'Apache Iceberg).

Outre le point de vigilance sur l'aspect FinOps, Gartner pointe le manque d'intuitivité de l'UI, qui change fréquemment et manque de documentation ainsi que de capacités de développement low code.

Google : un réseau de partenaires à développer

Parmi les "leaders" de ce marché, Google est celui qui a connu la plus forte croissance ces dernières années, équitablement répartie entre relationnel et non relationnel. Gartner apprécie sa fondation data/IA unifiée (avec Dataplex pour la gouvernance, ouvrant la voie aux data fabrics et aux data ecosystems), ses contributions open source (à Postgres en particulier) et ses avancées dans la GenAI (intégration de Gemini ; support transversal de la recherche vectorielle via LangChain).

Au-delà de la complexité de gestion des coûts, Google propose moins d'options que la concurrence pour l'intégration native d'applications et le master data management. Son réseau de partenaires doit par ailleurs encore se développer, affirme Gartner.

IBM a du mal à faire passer son message

Nouvel entrant dans le carré des "leaders", IBM se distingue sur sa stratégie verticale (solutions spécifiques adaptées sur la gouvernance, la sécurité et la conformité). Bon point également sur la capacité à combiner ses expertises en open source et en data management au service des déploiements hybrides. Gartner juge plus globalement son offre bien adaptée aux applications critiques.

IBM a cependant du mal à se différencier dans sa communication, qui n'est par ailleurs pas uniforme entre ses équipes commerciales. Quant au déploiement géographique de ses solutions, il n'atteint pas encore celui des autres hyperscalers.

La maturité de Microsoft Fabric reste à démontrer

Une fois encore, Microsoft est crédité d'un bon point pour l'exhaustivité de son offre et pour le niveau d'intégration avec ses autres services (Azure, Microsoft 365, Dynamics 365, Power Platform). Gartner note aussi des avancées sur la gestion du multicloud, exemplifiées par l'interconnexion Azure-Oracle et par les "raccourcis" dans OneLake pour l'analytics fédéré. Microsoft reste par ailleurs en pointe dans l'usage de l'IA pour le data management.

Le déploiement peut néanmoins être complexe, en particulier pour le DR, la sécurité et la gestion des coûts - et les compétences manquent dans le réseau de partenaires. Gartner estime aussi que la maturité de Microsoft Fabric reste à démontrer : les capacités d'intégration, de gouvernance et de gestion des métadonnées sont moins "robustes" que chez d'autres "leaders". Attention également au chevauchement des offres data et analytics (les clients expriment des craintes sur la pérennité d'Azure Synapse Analytics et d'Azure Databricks face à Microsoft Fabric).

MongoDB, sous concurrence accrue

De maturité, il est aussi question pour MongoDB, mais positivement : son offre est "bien considérée" pour ses capacités de traitement à haut volume, sa scalabilité et la flexibilité de son schéma. Gartner note aussi la souplesse et la rapidité d'implémentation, contribuant à la popularité de l'offre auprès des devs.

Si MongoDB associe transactionnel et analytique, son offre se limite à du non relationnel. Et la concurrence s'accentue de la part de fournisseurs de SGBD qui incluent l'approche document en plus d'autres modèles. C'est sans compter ceux qui proposent une compatibilité MongoDB.

Oracle : une approche centralisée à bien appréhender

Crédité d'un bon point sur la gestion du multicloud (offres Database@ et interconnexions réseau avec les principaux hyperscalers), Oracle l'est aussi pour l'exhaustivité de son offre (fonctionnalités, support de multiples modèles de données et de l'architecture lakehouse). Gartner relève aussi la capacité à diffuser rapidement des nouveautés (GenAI, low code, consensus RAFT...).

En plus d'être perçu comme onéreux, Oracle a encore du travail pour "cloudifier" sa base client. On s'assurera, en outre, de bien interpréter l'approche "une base de données pour tout" et ce qu'elle implique en matière de livraison de fonctionnalités.

Snowflake peut progresser sur les scénarios hybrides

Chez Snowflake, Gartner apprécie l'UI, simple et adaptée à divers profils d'utilisateurs. Autres points forts : le support de multiples formats sur la couche de stockage et l'extension de l'architecture lakehouse avec Iceberg et Polaris (catalogue de données open source).

La prise en charge des scénarios hybrides reste limitée. L'intégration avec le stockage sur site via les tables externes pose des défis d'usabilité. Gartner relève aussi des complexités dans le partage des données entre organisations utilisatrices de Snowflake (lecture seule, pas de partage ultérieur, restrictions sur certaines régions cloud).

Illustration générée par IA

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #cloud

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page