Meta dégaine son supercalculateur AI RSC : 6 choses à savoir

Le supercalculateur le plus puissant au monde ? Meta aussi vise ce graal. Son arme pour le conquérir : AI Research SuperCluster (RSC). Présenté cette semaine, le système n’est pas encore à sa pleine capacité – il devrait l’avoir atteinte à la mi-2022.

Quelles spécifications à l’heure actuelle ?

On aurait pu penser que Meta puiserait le design de RSC dans les travaux de l’Open Compute Project, dont il est l’un des leaders. Ce n’est pas le cas. On est sur une architecture propriétaire. Avec 760 serveurs NVIDIA DGX A100, pour un total de 6080 GPU A100 disposant chacun d’un réseau InfiniBand à 200 Gb/s.

Pour le stockage, prime à Pure Storage. Qui fournit l’essentiel de la capacité sur des baies FlashArray (175 Po) et une petite partie en FlashBlade (10 Po NFS). Les 46 Po de cache sont sur des serveurs Altus (base AMD EPYC) fournis par Altus de Penguin Computing, filiale du groupe californien SMART.

(Cliquer pour agrandir.)

Quelles spécifications au final ?

Meta compte monter à 16 000 GPU. Pas davantage, pour garantir les meilleures performances réseau. Autre objectif : pousser le stockage à 1 exaoctet (1 milliard de gigaoctets), avec 16 To/s de bande passante.

Quelles performances à l’heure actuelle ?

Dans sa phase 1, RSC délivre 1895 Pflops en simple précision (FP32). Cela le positionne a priori dans le top 5 mondial des supercalculateurs. Meta livre quelques indicateurs comparatifs, avec comme base son précédent cluster IA, conçu en 2017. Réunissant 22 000 GPU V100, il assure « 35 000 tâches d’entraînement par jour ».

RSC serait :

– 20 fois plus rapide en production
– 9 fois plus rapide sur l’exécution de la bibliothèque NVIDIA NCCL
– 3 fois plus rapide sur l’entraînement de modèles de traitement du langage naturel

Meta cherche data

Quelles performances au final ?

Meta entend atteindre, à pleine puissance, 5 Eflops en précision simple. Un tel niveau de performance placerait RSC en deuxième position du dernier TOP500 (novembre 2021).

Parmi les superordinateurs à la configuration similaire et dont la livraison est prévue pour 2022, on surveillera Leonardo. Élaboré dans le cadre de l’initiative EuroHPC, il se trouve au Cineca (consortium universitaire italien connu pour ses travaux sur Quantum Espresso, une boîte à outils open source pour la modélisation de matériaux à l’échelle nanoscopique). À l’intérieur, des serveurs BullSequana HX2000 (Atos) et près de 14 000 GPU A100.

Pour quoi faire ?

RSC « entraîne déjà des modèles de traitement du langage naturel et de vision par ordinateur », assure Meta. Le but est d’aller vers des modèles dépassant les mille milliards d’hyperparamètres. Et vers des jeux de données allant jusqu’à 1 exaoctet. En toile de fond, un mot d’ordre : le métavers, actuel mantra du groupe américain. Et deux axes qui ressortent. D’une part, le développement d’outils en réalité augmentée. De l’autre, la traduction « en temps réel ».

Avec quelles données ?

Le cluster IA précédent exploitait uniquement des données publiques, affirme Meta. Avec RSC, ce sera différent. L’entreprise va y injecter des éléments « du contenu généré par les utilisateurs », issu de ses « systèmes de production ».

Quelles promesses dans ce contexte ? Essentiellement :

– Avant tout traitement, vérifier que les données ont correctement été rendues anonymes

– RSC est isolé du réseau internet ; il n’est connecté qu’au réseau interne de Meta

– Déchiffrement des données uniquement dans la mémoire des GPU ; clés de déchiffrement régulièrement supprimées

Illustrations © Meta