Comment marier IA générative et données d’entreprise
Sommaire
Avec la diffusion massive des Copilot de Microsoft, Copilot de GitHub et bien entendu ChatGPT, toutes les entreprises ont accès à l’IA générative. Mais c’est bien sur la capacité d’exploiter les LLM (« Large Language Models ») sur les données privées que les entreprises vont pouvoir se différencier et gagner des parts de marché.
Dans de nombreuses d’entreprises, l’adoption de l’IA générative (GenAI) fut un mouvement
bottom-up,les utilisateurs s’emparant du phénomène avant même que leurs DSI ne leur proposent des applications.
« C’est lorsque l’on va se connecter à des sources de données de l’entreprise que l’on va avoir besoin de data engineers. Ce n’est que lorsque l’entreprise va chercher à customiser ses LLM pour répondre aux besoins des métiers dans une quatrième phase que les datascientists et les MLOps [opérationsde machine learning] vont intervenir. » souligne Didier Girard, vice-président engineering de SFEIR. Et de préciser qu’au départ, les projets de GenAI n’étaient pas des projets data classiques.
Au-delà d’usages grand public comme la production d’images, la génération d’emails, la synthèse de texte ou encore la traduction automatique, le plus complexe pour les entreprises sera d’imaginer les cas d’usage de l’IA générative qui apporteront un vrai différenciateur pour les entreprises.
1 L’approche Databricks
De facto, tous les fournisseurs de solution de gestion des données se sont intéressés très tôt à l’IA générative et on cherché à intégrer des LLM à leurs offres. C’est notamment le cas de Databricks, qui a bouclé l’acquisition de MosaicML en juillet 2023.
Créée en 2021, la start-up a apporté à l’éditeur de fortes compétences en LLM. Hanlin Tang, CTO chez Databricks explique l’intérêt d’intégrer les technologies GenAI à la plateforme data : « Toutes ces technologies de GenAI sont packagées dans notre Data Intelligence Platform. Cette intégration étroite sur une plateforme unique fait que l’utilisateur peut travailler sur ces applications de GenAI et les connecter aux données stockées dans Delta Lake, notre solution de stockage unifiée, passer par les fonctions de gouvernance de Unity Catalog. Nous considérons que disposer d’une plateforme intégrée facilite le passage d’une application de GenAI du PoC [étude de faisabilité] au déploiement en production. »
L’éditeur veut ainsi accompagner les entreprises sur leur courbe de maturité des technologies de GenAI, avec des cas d’usage de plus en plus complexes : « Beaucoup de nos clients ont commencé par l’écriture de prompts spécifiques afin de cadrer le comportement de LLM préexistants. Ils s’orientent ensuite vers le RAG (génération augmentée de récupération) qui combine de grands modèles LLM et de la donnée d’entreprise. Ils prennent aussi des modèles pré-entraînés pour faire du fine-tuning dessus, afin de l’adapter à des jeux de données ou domaines très spécifiques. Ils peuvent aller jusqu’à entraîner leurs propres modèles de GenAI. Nous avons construit un portefeuille produit complet afin de répondre à ces différents cas d’usage, tous gérer depuis Unity Catalogue et Lakehouse Manager. » détaille Hanlin Tang.
2 Les choix d’Oracle
Autre éditeur majeur à être entré dans le club des fournisseurs de solutions GenAI, Oracle dont la stratégie est d’embarquer de l’IA générative à chaque niveau de son stack technologique OCI (Oracle Cloud Infrastructure). Oracle a annoncé en janvier 2024 la disponibilité générale d’OCI Generative AI, la beta d’OCI Generative AI Agents pour un type d’agent : les RAG et la version bêta d’OCI Data Science AI Quick Actions, qui doit être lancée en février.
Oracle avait signé un partenariat avec Cohere, en juin 2023, et la version bêta d’OCI Genrative AI avait été dévoilée sur Oracle World quelques mois plus tard. La plateforme Oracle propose désormais les LLM de Meta (LLama-2 70B) et de Cohere. Les utilisateurs pourront effectuer un fine-tuning de ces modèles.
Lire aussi : ModernBERT, mais pas que : tendance RAG chez LightOn
Vinod Mamtani, vice-président des services d’IA générative d’OCI, l’assure : « les données utilisées pour l’entraînement de ces modèles ne seront pas partagées avec Meta ou Cohere, de même qu’Oracle ne mélangera pas ces données avec celles de ses autres clients. ».
La plateforme GenAI d’Oracle va s’appuyer sur une version améliorée des clusters UX et fournir des capacités en termes de GenAI Ops, notamment une intégration de LangChain. Enfin, avec OCI Generative AI Agents, Oracle propose des packages RAG capables de s’interfacer avec le moteur de recherche OpenSearch, qui fait partie du stack OCI, permettant de créer des RAG alimentées avec les données de data warehouses, des ERP/HCM et object stores.
Prochainement, Oracle devrait proposer des RAG directement interfacées avec Oracle Database 23c AI Vector Search et MySQL HeatWare Vector Store.
3 MongoDB et les applications RAG
La montée en puissance des applications RAG met en avant la technologie de bases vectorielles nécessaire pour que le LLM puisse « comprendre » les documents qui lui sont soumis dans une RAG. L’éditeur MongoDB pousse en avant son offre Embedded Vector Search sur ce marché de la GenAI.
« Le « vectors embedding » donne une représentation d’une information audio, texte ou vidéo, ce qui permet de requêter ce qui va être similaire à une information », explique Gabriel Paranthoen, Solution Architect chez MongoDB. « Au lieu d’une recherche par mots clés qui cherche les correspondances exactes entre mots, on peut faire des recherches sur une signification proche les unes des autres. »
MongoDB pousse sa solution de recherche vectorielle dans la plateforme Atlas, mais l’éditeur embarque désormais la GenAI dans de nombreux produits, notamment ses solutions Compass et Atlas Charts. L’utilisateur peut créer des requêtes en langage naturel, écrire une requête SQL et la traduire en langage MongoDB.
Tout comme IBM le fait pour traduire du Cobol en langage plus moderne, MongoDB exploite l’IA générative pour convertir les procédures stockées Oracle vers MongoDB. « Sur un projet de migration, les dizaines de milliers de lignes PL/SQL dans les procédures stockées prennent le plus de temps à migrer. Nous avons entraîné nos modèles avec notre partenaire AWS et sa solution AWS Code Whispered pour migrer ce code legacy sur du MongoDB. » précise Gabriel Paranthoen.
Enfin, la plateforme Cloud MongoDB Atlas peut être exploitée dans le cadre des écosystèmes GenAI LangChain et LlamaIndex afin de créer des applications GenAI s’appuyant sur tous types de LLM, en fonction des cas d’usage.
En quelques mois, la GenAI s’est imposée comme une des briques clés des architectures data. Les éditeurs de progiciels suivent le même chemin et vont proposer des IA génératives à tous les étages de leurs offres.
C’est en tout cas la voie prise par Oracle comme l’explique Vinod Mamtani : « Oracle dispose d’une large suite d’applications d’IA et ces derniers trimestres nous avons infusé des technologies d’IA générative dans toutes nos applications, qu’il s’agisse de HCM (Human Capital Management), de SCM (Supply Chain Management), les ERP et dans NetSuite. Nous avons des centaines de cas d’usage qui intègrent de l’IA générative »
Crédit photos : @DR
4 Les 4 étapes de complexité dans l’usage de l’IA générative
1. Prompt Engineering
Optimisation des requêtes soumises aux LLM afin d’obtenir des réponses précises ou contraindre le LLM à générer son texte selon des critères prédéfinis comme la nature du document, la longueur du texte, le type d’interlocuteur, etc.
2. Retrieval Augmented Generation (RAG)
Cette technique permet d’intégrer des données spécifiques à une requête afin d’enrichir la réponse du LLM. Ces données sont stockées sous forme de vecteurs, ce qui permet au RAG d’extraire les données les plus pertinentes dans la base de connaissances qui lui est assignée.
3. Fine-tuning
Adaptation d’un modèle LLM à un domaine ou une tâche spécifique. Ce ré-entraînement d’un modèle déjà pré-entraîné permet d’éviter un entraînement complet du modèle extrêmement coûteux en ressources et en temps.
4. Pre-training
Le pré-entraînement d’un LLM consiste à réaliser un entraînement du modèle sur de très gros volumes de données afin de lui apprendre les fondements du langage ou d’un domaine spécifique. Cette phase fondamentale peut être menée en mode supervisé avec des données étiquetées ou en mode auto-supervisé.
Sur le même thème
Voir tous les articles Workspace