La roadmap d'OpenSearch sous l'ère Fondation Linux

Désormais hébergé à la Fondation Linux, le projet OpenSearch avance feuille de route exhaustive pour 2024-2025.

Publié par Clément Bohic le 17 sept. 2024 | mis à jour à 15:08

Lecture
6 min

Imprimer

La Fondation Linux, une suite logique pour OpenSearch ?

Le projet vient de franchir ce cap. AWS, son instigateur et principal porteur, veut y voir la concrétisation d'une démarche d'ouverture progressive. Il l'illustre, d'une part, en chiffres (42 % des dépôts GitHub ont aujourd'hui au moins un gestionnaire ne travaillant pas pour Amazon, par exemple). De l'autre, en rappelant quelques étapes traversées depuis les débuts d'OpenSearch en 2021. Parmi elles :

Création, en septembre 2022, d'un processus communautaire pour la gestion des problèmes de sécurité
Lancement, en avril 2023, d'un espace de travail Slack public
Ouverture, en mai 2023, du process de release à des contributeurs hors AWS
Constitution, en décembre 2023, d'un "comité directeur"

Ce comité se compose notamment de gestionnaires et de propriétaires de dépôts, d'ingénieurs et d'employés d'entreprises utilisant OpenSearch. Il a recommandé de confier le projet à la Fondation Linux. Une démarche qui avait démarré en avril 2024... et qu'AWS dans laquelle AWS perçoit un levier d'attraction de nouveaux contributeurs.

Parallèlement à cette transition, OpenSearch communiqué une roadmap exhaustive pour 2024-2025.

Sur la partie base de données vectorielle et GenAI

Pour améliorer le rapport prix/performance, OpenSearch entend introduire une solution ANN (approximate nearest neighbor) utilisant des vecteurs quantisés. Il promet une compression jusqu'à 32 x et des coûts réduits de 70 %.

Il est aussi question d'utiliser les GPU pour accélérer la construction des usages k-NN (promesse : un ratio prix/performance 10 à 40 fois meilleur que sur CPU). Et de mettre en place un routage "intelligent" pour augmenter le débit des requêtes en organisant les index par similitude sémantique.

Face au volume d'outils et d'algorithmes, une fonctionnalité AutoTune recommandera les valeurs d'hyperparamètres optimales pour un workload donné. S'y ajoutera un concepteur low code de flux de recherche au sein des dashboards.

Sur la partie recherche

Le projet cherche a intégrer les capacités du plug-in SQL directement dans OpenSearch. Objectif : unifier la planification et l'exécution des requêtes entre langages.

Pour améliorer les performances sur la requête de plage, des techniques d'approximation seront mises en place. On nous parle aussi d'une accélération des agrégations de type histogrammes de dates, d'une optimisation de la recherche concurrente de segments et du développement d'un cache de requêtes multiniveaux.

En complément à l'ingestion depuis DynamoDB et DocumentDB avec Data Prepper, le support des bases SQL est sur la roadmap.

Sur l'expérience utilisateur

Au niveau des dashboards, OpenSearch veut introduire un concept de "dataset". Celui-ci étendrait les patterns d'index pour permettre de travailler avec des sources de type bases relationnelles et Prometheus. Autre concept à venir : les workspaces, qui donneront accès à des expériences "verticales" pour la recherche, l'observabilité et les analyses de sécurité.

Le projet cherche par ailleurs à découpler les dashboards du moteur afin qu'ils fonctionnent comme des applications autonomes indépendantes de l'installation d'OpenSearch. Ils auront leur propre authentification et leur propre contrôle d'accès basé sur des workspaces. La gestion des plug-in sera en outre fluidifiée pour permettre d'étendre les dashboards sans avoir à la relancer. On nous promet aussi un assistant GenAI et un outil d'aide à la migration depuis d'anciennes versions des dashboards.

Sur l'observabilité et l'analytics

D'ici à fin 2024, OpenSearch devrait avoir consolidé SQL et PPL sur une interface commune au sein de Discover, avec saisie et suggestions automatiques. À l'horizon 2025, une trentaine de fonctions et de commandes PPL devraient faire leur entrée. Et le moteur SQL, prendre en charge la recherche géographique.

Pour automatiser l'identification des problèmes, OpenSearch prépare un framework reposant sur des "zones de corrélation". Il promet aussi d'améliorer l'UI du plug-in d'analyse de traces tout en l'intégrant avec d'autres modules d'extension. Les dashboards supporteront par ailleurs PromQL pour des requêtes directes sur des sources Prometheus.

La liste des sources prises en charge par Data Prepper devrait s'allonger pour inclure notamment Amazon Kinesis et les API OpenSearch. Au niveau des analyses de sécurité, il y aura des intégrations avec ServiceNow et PagreDuty. Ainsi que de la GenAI pour configurer la détection et accompagner la remédiation.

Sur la capacité de montée en charge

Il est question de réarchitecturer OpenSearch en séparant indexation et recherche. Pour des interconnexions plus rapides, le projet utilisera un format binaire pour la communication client-serveur. Pour les messages entre noeuds, il a mené des tests concluants avec Protobuf.

Actuellement sur un modèle push, l'ingestion des événements depuis des flux externes va passer sur un mode pull. Cela permettra de mieux gérer les pics de charge, tout en supprimant le besoin du translog sur les noeuds d'indexation.

Pour ce qui est des API d'administration, elles vont s'enrichir de fonctionnalités de pagination et d'annulation. OpenSearch prépare aussi des optimisations sur les API Stats et Cluster pour éliminer les traitements redondants.

Sur la disponibilité et la sécurité

OpenSearch entend donner, au niveau des coordinateurs, une visibilité plus fine sur les différentes phases d'exécution des requêtes. Il compte aussi fournir aux admins des clusters des garanties de performances basées sur les locataires. Et permettre la publication distante de l'état des clusters (en l'état, c'est le noeud de gestion qui assure la distribution).

Data Prepper pourra quant à lui envoyer de façon plus flexible les données vers une file d'attente de lettres mortes. En l'état, il ne le fait que si l'écriture finale échoue. L'idée est de pouvoir déclencher cet envoi en cas d'autres problèmes, par exemple pendant le traitement.

Pour l'isolation des plug-in, OpenSearch s'oriente vers un modèle zero trust. Dans le plug-in de sécurité, il a identifié des pistes d'amélioration, notamment pour les clusters regroupant beaucoup d'index ou de rôles associés à des utilisateurs.

Vers une architecture modulaire

À l'heure actuelle, le coeur du projet reste monolithique. Une solution pas idéale pour la nouvelle génération du moteur de requête. Ni pour le substitut recommandé à Java Security Manager, qui sera bientôt retiré du runtime. Dans ce contexte, OpenSearch entend aller vers une architecture orientée services.

Illustration

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

La roadmap d'OpenSearch sous l'ère Fondation Linux