{ Tribune Expert } - Pas de « modèle unique » pour l'IA générative
Publié par Lori MacVittie * le | Mis à jour le
Nos recherches montrent que les entreprises utilisent en moyenne près de trois modèles différents. Ce choix semble principalement dicté par les cas d'utilisation.
À en croire les médias, OpenAI semble être le seul et unique acteur de l'IA générative disponible sur le marché. Il fait l'objet de toutes les discussions en lien avec l'IA. Mais ce n'est pas pour autant le seul service qui existe, ni le seul modèle disponible. L'adoption de l'IA générative par les entreprises est loin d'être aussi uniforme que les gros titres veulent bien nous le faire croire.
Nos recherches montrent que les entreprises utilisent en moyenne près de trois modèles différents. Ce choix semble principalement dicté par les cas d'utilisation.
Il n'est effectivement pas surprenant de voir que les opérations de sécurité, lorsqu'elles sont choisies comme cas d'utilisation, gravitent autour des modèles open-source. Cela s'explique par le fait qu'elles peuvent être entraînées en privé, sans risque d'exposer les processus et données sensibles de l'entreprise.
Même chose pour la création de contenu. Elle oblige souvent à partager des données sensibles avec un modèle. Il n'est pas surprenant non plus que les cas d'utilisation de l'automatisation des flux de travail se tournent vers les services hébergés de Microsoft, car de nombreuses entreprises sont déjà étroitement liées aux solutions Microsoft, que ce soit sur site ou via Azure.
Aucun modèle unique ne sera capable de répondre à l'ensemble des exigences techniques et commerciales d'une liste croissante des cas d'utilisation de l'IA générative en entreprise.
Cela crée des défis en termes de fourniture d'applications, de sécurité et d'opérations générales, car chaque choix de modèle peut nécessiter un schéma de déploiement différent.
Nouveaux modèles de déploiement de l'IA
Trois modèles de déploiement principaux sont en train de se dessiner. Ce qui fait la différence, c'est la responsabilité opérationnelle de la mise à l'échelle des services d'inférence. Dans tous les schémas, l'entreprise est responsable de la fourniture des applications et de la sécurité.
1. Géré en mode SaaS. Dans un modèle de déploiement géré en mode SaaS, les applications d'IA se servent des API pour accéder à un service d'IA géré, à l'instar de ChatGPT d'OpenAI. La responsabilité de l'évolutivité opérationnelle revient au fournisseur.
2. Géré via le cloud. Les schémas déployés qui sont gérés dans le cloud s'appuient sur les services d'IA hébergés par les fournisseurs de cloud. Ces services sont toujours accessibles via une API, mais pour l'entreprise ils peuvent être soit privés, soit partagés. Les applications d'IA peuvent elles aussi se trouver dans le cloud public ou sur site. Lorsque le service est privé, c'est à l'entreprise d'assumer la responsabilité de l'évolution des services d'inférence, un défi de taille pour la plupart des organisations qui ont peu d'expérience dans la mise à l'échelle de grands modèles de langage. Lorsque le service est partagé, les entreprises délèguent la responsabilité au fournisseur de cloud, mais doivent intégrer dans leur gestion des facteurs tels que les quotas et les coûts basés sur les tokens.
3. Autogéré. Les modèles open-source sont les plus susceptibles d'être déployés dans un schéma autogéré, que ce soit dans le cloud public ou sur site. Les modèles peuvent être accessibles via une API ou directement via une application. Dans ce schéma, les entreprises assument l'entière responsabilité de la mise à l'échelle, de la sécurisation et de la surveillance des services d'inférence.
De nombreux fournisseurs hébergent des modèles open-source pour prendre en charge un modèle géré en mode SaaS, tandis que de nombreux fournisseurs de cloud proposent également des modèles open-source en tant que service.
Les modèles OpenAI ne se limitent pas à une solution SaaS gérée par OpenAI, mais ils sont également accessibles via un déploiement cloud géré par Microsoft. De plus, le modèle open-source Mistral est déployable dans les trois différents environnements. Ainsi, le choix du modèle repose principalement sur le cas d'utilisation spécifique et offre aux entreprises la flexibilité de combiner et d'ajuster les schémas de déploiement en fonction de leurs besoins.
Les entreprises sont déjà sous pression en termes de compétences, tant pour entraîner les modèles que pour les exploiter et les sécuriser. Il est donc logique pour beaucoup d'entre elles d'adapter les modèles aux cas d'utilisation, en tenant compte de leurs ressources opérationnelles limitées. Les meilleurs résultats seront obtenus en privilégiant les cas d'utilisation qui, pour des raisons de sécurité ou de confidentialité, ne peuvent pas être déployés via des modèles partagés.
Attention aux angles morts
Méfiez-vous tout de même d'un danger, celui des angles morts. Ils peuvent déclencher des silos au sein de l'entreprise. C'est ce qui s'est produit avec l'informatique en cloud. Il n'y a pas de raison que cela ne se reproduise pas avec l'IA générative. Tout le monde sait qu'isoler les opérations et la sécurité par modèle est risqué. Mais on peut espérer que les entreprises feront le choix de modèles et de méthodes de déploiement qui optimisent l'utilisation de leurs ressources, capacités et budgets.
Ce n'est que le début, et d'ici à ce que vous lisiez ces lignes, de nouveaux fournisseurs et modèles aux capacités élargies auront probablement vu le jour. Les schémas de déploiement resteront en grande partie les mêmes et offriront une base solide pour une planification stratégique efficace, qu'il s'agisse de la gestion des budgets, du personnel ou des services d'application nécessaires pour sécuriser et développer les modèles que vous choisirez.
* Lori MacVittie est ingénieur émérite chez F5