Snowflake et Databricks rivalisent aussi sur l’open source

Snowflake Databricks catalogue de données

Snowflake et Databricks viennent d’officialiser l’un et l’autre une démarche de mise en open source d’un catalogue de données.

Où est le code de Polaris Catalog ? Il faudra patienter encore un peu pour y accéder.

Début juin, Snowflake a dévoilé ce catalogue de données pour Apache Iceberg. Il s’est alors donné 90 jours pour le mettre en open source.

Son concurrent Databricks s’est engagé dans une démarche similaire. Elle n’implique pas le lancement d’un nouveau produit, mais l’ouverture de Unity Catalog, qui existe depuis 2021.

Snowflake capitalise sur Iceberg…

Polaris Catalog implémente l’API REST Iceberg et y ajoute des capacités qui le prêtent à un usage en prod. Par exemple, la gestion distribuée, le data lineage et la description des données. Snowflake fait aussi la jonction avec sa solution de gouvernance Horizon, étendue aux tables créées par d’autres moteurs.

L’annonce de Polaris Catalog coïncide avec la disponibilité générale des tables Iceberg chez Snowflake. Ce dernier prévoit de fournir une version managée du catalogue, en plus de l’option autohébergement.

disponibilité Polaris Catalog

… et Databricks, sur UniForm

Databricks a placé Unity Catalog sous l’égide de la Linux Foundation. Son implémentation open source est construite sur la spec OpenAPI, avec un code serveur sous licence Apache 2.0.

En toile de fond, la récente disponibilité générale de UniForm (Delta Lake Universal Format). Avec cette couche, Databricks a ajouté à Unity Catalog le support d’Iceberg et de Hudi, en plus de son format Delta.
La semaine dernière, l’éditeur a annoncé avoir mis la main sur Tabular, entreprise qu’on doit au créateur d’Iceberg. En ligne de mire, la convergence des specs Iceberg et Delta.

Illustration principale © TensorSpark – Adobe Stock