Recherche

Après l'edge et le green IT, MLPerf s'ouvre à l'IA générative

Le benchmark MLPerf Training accueille un test fondé sur un modèle GPT-3. Quelles configurations s'en sont le mieux sorties ?

Publié par Clément Bohic le - mis à jour à
Lecture
3 min
  • Imprimer
Après l'edge et le green IT, MLPerf s'ouvre à l'IA générative

L'apprentissage par renforcement sur le jeu de Go ? Pas la peine de chercher cet exercice dans la dernière vague du benchmark MLPerf Training. Il a disparu à la faveur d'un test à base d'IA générative. Consistant en l'occurrence à entraîner, sur le dataset C4, un modèle de type GPT-3.

La configuration qui s'en est le mieux sortie sur le critère temps a mis environ 11 minutes pour atteindre l'objectif de perplexité attendu. Présentée par NVIDIA et CoreWeave, elle associe 448 noeuds pourvus chacun de 2 CPU Intel Xeon Platinum 8462Y+ (32 coeurs), 8 GPU NVIDIA H100 SXM5-80, 1 To de RAM et 8 To de stockage (NVMe U.2), avec 8 liens InfiniBand 400 Gb/s pour le compute et un DPU BlueField-2 pour la gestion réseau. Framework utilisé : NeMo Megatron.

Il a fallu un peu plus du double de temps (environ 23 minutes) pour une configuration à peu près moitié moins bien dotée (384 CPU et 1536 GPU du même type). Et un peu moins du quadruple (environ 45 minutes 30) pour une configuration à peu près quatre fois moins bien dotée... Une progression quasi linéaire, donc.

MLPerf : l'IA générative remplace le jeu de Go

La configuration qui l'a emporté sur ce benchmark IA générative s'est aussi distinguée sur l'exercice de classification (modèle ResNet sur ImageNet). Elle a mis un peu moins de 20 secondes, avec le framework MXNet version NVIDIA.

Une autre configuration en Xeon Platinum 8462Y+ (768 CPU, 3072 GPU) atteint les sommets sur le benchmark NLP. Il lui a fallu environ 8 secondes pour entraîner BERT-large sur un dataset issu de Wikipédia.

Les cinq autres benchmarks sont dominés par des configurations en Xeon Platinum 8480C (56 coeurs). La plus « modeste » est à 32 CPU (et 128 GPU), avec, par noeud, 2 To de RAM et 38 To de disque (8 To NVMe + 30 To U.2). Elle a mis un peu plus d'une minute et demie sur l'exercice de recommandation (version modifiée du modèle DLRM sur le dataset Criteo 4TB).
La mieux dotée (192 CPU, 768 GPU ; même quantité de disque et de RAM) a permis d'entraîner RetinaNet sur OpenImages (détection d'objets) en environ 1 min 30 s.

À consulter en complément :

Machine learning : quel sera le benchmark de référence ?
MLPerf s'attaque au coût énergétique du machine learning
IA : 4 certifications pour dynamiser votre parcours
Comment TotalEnergies alimente son usine à IA
L'UE ouvre la voie à des centres de « crahs test » de l'IA

Photo d'illustration © KanawatVector - Adobe Stock

Sur le même thème

Voir tous les articles Data & IA
Les Podcasts de Splunk
sponsorisé
Gestion de crises : les leçons d’un DSI

Livres Blancs

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page