Pour gérer vos consentements :

SageMaker : comment la « machine à IA » d’AWS évolue

Connecter directement des applications SaaS à SageMaker ? Pas tout à fait, mais on s’en approche. On peut désormais en ajouter une quarantaine comme sources dans l’outil de préparation de données Data Wrangler.

AWS a officialisé, dans le cadre de sa conférence re:Invent, cette jonction qui s’appuie sur le service d’intégration AppFlow et le catalogue de Glue. Elle permet de parcourir tables et schémas en utilisant l’explorateur SQL de Data Wrangler.

Autre ajout à Data Wrangler : la prise en charge de l’inférence en flux et en lot. Plus précisément, la capacité à réutiliser les workflows de transformation de Data Wrangler au sein des pipelines d’inférence de SageMaker. Une fonctionnalité qui repose sur SageMaker Autopilot et qui s’appuie sur des notebooks personnalisés.

Les notebooks, justement, s’enrichissent sous plusieurs angles. Parmi eux, la préparation de données. Ils peuvent désormais générer automatiquement des visualisations à partir de données tabulaires Pandas. Autre ajout : des espaces partagés dans l’environnement de développement SageMaker Studio, qui reposent sur un répertoire EFS partagé et permettre de collaborer sur des notebooks. À noter aussi la capacité à convertir automatiquement des notebooks en tâches serverless. SageMaker capture un instantané des notebooks, les conteneurise avec leurs dépendances, puis prépare l’infrastructure et la déprovisionne une fois la tâche accomplie.

Pour partage des notebooks, mais aussi des modèles, on pourra se tourner vers SageMaker Jumpstart. À l’origine, ce service se limitait à donner accès à des algorithmes intégrés et à des modèles préentraînés. Il peut désormais accueillir des éléments partagés entre des utilisateurs membres d’un même comptes AWS. Y compris des éléments développés hors de SageMaker.

AWS dote aussi SageMaker d’outils supplémentaires de gouvernance. Avec trois briques principales. Premièrement, de quoi définir des permissions personnalisées, avec des templates (catalogue de stratégies IAM) pour deux typologies d’utilisateurs (ingénieurs ML, data scientists) et deux types d’activités (préparation, entraînement). Deuxièmement, des « cartes » permettant de documenter les modèles sur leur cycle de vie. Troisièmement, un tableau de bord, intégré à Model Monitor et Clarify, pour évaluer les modèles sur quatre dimensions. En l’occurrence, qualité des données, qualité des modèles, perte de précision due aux biais et perte de précision due à la distribution des données.

SageMaker Studio se pare quant à lui d’une UI refondue. En particulier au niveau du menu latéral de navigation. Le voilà doté de liens suivant les étapes classiques du workflow ML. Et d’un lanceur redesigné mettant l’accent sur des « actions rapides ».

Encore au stade de la preview, il y a la prise en charge des données géospatiales dans SageMaker. AWS fournit des modèles préentraînés, des opérateurs et diverses bibliothèques de visualisation (GDAL, GeoPandas, NumPy, Rasterio…).
L’accès est payant. À raison, d’une part, de 150 $/mois/utilisateur pour les outils de visualisation et de collaboration. Et, de l’autre, d’une facturation à l’usage pour le compute, le stockage et les requêtes.

Arrive aussi, sur SageMaker, le shadow testing. Dans les grandes lignes, il s’agit de créer un modèle de test vers lequel on achemine une copie des requêtes dirigées vers le modèle de production. SageMaker permet ensuite de comparer les performances sur un tableau de bord – et éventuellement de les journaliser sur le modèle de test pour une comparaison hors ligne.

Illustration principale générée par IA

Recent Posts

Pour son premier LLM codeur ouvert, Mistral AI choisit une architecture alternative

Pour développer une version 7B de son modèle Codestral, Mistral AI n'a pas utilisé de…

5 heures ago

Microsoft x Inflection AI : l’autorité de la concurrence britannique lance son enquête

L’Autorité de la concurrence et des marchés (CMA) britannique ouvre une enquête sur les conditions…

8 heures ago

Thomas Gourand, nouveau Directeur Général de Snowflake en France

Thomas Gourand est nommé Directeur Général pour la France. Il est chargé du développement de…

10 heures ago

Accord Microsoft-CISPE : comment Google a tenté la dissuasion

Pour dissuader le CISPE d'un accord avec Microsoft, Google aurait mis près de 500 M€…

10 heures ago

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

11 heures ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

1 jour ago