De S3 à EFS, le stockage AWS s'adapte à l'IA

Publié par La rédaction le 26 nov. 2024 - mis à jour à 14:11

Quelques-unes des dernières évolutions fonctionnelles des services de stockage AWS favorisent la mise en oeuvre de workloads d'apprentissage automatique.

Les écritures conditionnelles, une raison d'adopter S3 pour les workloads IA ?

Voilà quelques semaines, AWS officialisait la prise en charge de cette fonctionnalité qui permet de vérifier l'existence d'un objet avant de le créer. Il en soulignait l'intérêt pour les charges de travail parallélisées... dont le machine learning distribué.

D'autres éléments intégrés cette année sur S3 vont dans le sens d'une adaptation au ML. Par exemple, sur le pilote PyTorch, la gestion de l'écriture de checkpoints directement avec l'interface Lightning.
En parallèle, AWS avait doté S3 sur Outposts d'un mécanisme de mise en cache des autorisations IAM, réduisant les latences de premier octet pour eles requêtes API (à condition qu'elles soient signées avec l'algo SigV4a).

Lancée fin 2023, la classe de stockage mono-AZ S3 Express One Zone est devenue utilisable avec SageMaker en février. Puis, en août, avec EMR (Elastic MapReduce), exploité entre autres pour le machine learning. Récemment, le nombre maximal de buckets par compte AWS est passé à 1 million - le quota par défaut étant relevé de 100 à 10 000.

Alloués ou élastiques, les débits progressent

Sur EFS (stockage fichier), l'adaptation à l'IA implique essentiellement des hausses de débits. Par exemple :

Plafond relevé de 65 000 à 90 000 IOPS pour les données et métadonnées non fréquemment consultées (janvier)

Passage de 500 Mio/s à 1,5 Gio/s par instance EC2 ou pod EKS (mai)

Vitesse de lecture portée de 20 à 30 Gio/s sur le mode débit élastique (août)

Fin 2023, AWS avait permis de mettre des volumes EFS existants à la disposition de plusieurs utilisateurs au sein de SageMaker Studio. Il avait par ailleurs augmenté les capacités du mode débit alloué, portées à 10 Gbit/s en lecture et 3 Gbit/s en écriture.

L'offre Lustre d'AWS a elle aussi vu ses IOPS relevées dernièrement. Plus précisément pour les métadonnées. Par la même occasion, il est devenu possible de les faire évoluer indépendamment de la capacité de stockage.
Sur l'offre OpenZFS, une option de déploiement haute disponibilité sur zone unique (HA mono-AZ) est accessible depuis juillet. Parmi les usages auxquels elle se prête, le machine learning, aussi longtemps qu'il fonctionne sur une copie secondaire ou sur des données qui peuvent être régénérées.

Sur la partie stockage bloc, on peut, depuis début 2024, associer des volumes EBS aux tâches ECS (Elastic Container Service) exécutées à la fois sur Fargate et EC2. En ligne de mire, en particulier, l'inférence ML.

Illustration générée par IA