Pour gérer vos consentements :

Meta dégaine son supercalculateur AI RSC : 6 choses à savoir

Le supercalculateur le plus puissant au monde ? Meta aussi vise ce graal. Son arme pour le conquérir : AI Research SuperCluster (RSC). Présenté cette semaine, le système n’est pas encore à sa pleine capacité – il devrait l’avoir atteinte à la mi-2022.

Quelles spécifications à l’heure actuelle ?

On aurait pu penser que Meta puiserait le design de RSC dans les travaux de l’Open Compute Project, dont il est l’un des leaders. Ce n’est pas le cas. On est sur une architecture propriétaire. Avec 760 serveurs NVIDIA DGX A100, pour un total de 6080 GPU A100 disposant chacun d’un réseau InfiniBand à 200 Gb/s.

Pour le stockage, prime à Pure Storage. Qui fournit l’essentiel de la capacité sur des baies FlashArray (175 Po) et une petite partie en FlashBlade (10 Po NFS). Les 46 Po de cache sont sur des serveurs Altus (base AMD EPYC) fournis par Altus de Penguin Computing, filiale du groupe californien SMART.

(Cliquer pour agrandir.)

Quelles spécifications au final ?

Meta compte monter à 16 000 GPU. Pas davantage, pour garantir les meilleures performances réseau. Autre objectif : pousser le stockage à 1 exaoctet (1 milliard de gigaoctets), avec 16 To/s de bande passante.

Quelles performances à l’heure actuelle ?

Dans sa phase 1, RSC délivre 1895 Pflops en simple précision (FP32). Cela le positionne a priori dans le top 5 mondial des supercalculateurs. Meta livre quelques indicateurs comparatifs, avec comme base son précédent cluster IA, conçu en 2017. Réunissant 22 000 GPU V100, il assure « 35 000 tâches d’entraînement par jour ».

RSC serait :

– 20 fois plus rapide en production
– 9 fois plus rapide sur l’exécution de la bibliothèque NVIDIA NCCL
– 3 fois plus rapide sur l’entraînement de modèles de traitement du langage naturel

Meta cherche data

Quelles performances au final ?

Meta entend atteindre, à pleine puissance, 5 Eflops en précision simple. Un tel niveau de performance placerait RSC en deuxième position du dernier TOP500 (novembre 2021).

Parmi les superordinateurs à la configuration similaire et dont la livraison est prévue pour 2022, on surveillera Leonardo. Élaboré dans le cadre de l’initiative EuroHPC, il se trouve au Cineca (consortium universitaire italien connu pour ses travaux sur Quantum Espresso, une boîte à outils open source pour la modélisation de matériaux à l’échelle nanoscopique). À l’intérieur, des serveurs BullSequana HX2000 (Atos) et près de 14 000 GPU A100.

Pour quoi faire ?

RSC « entraîne déjà des modèles de traitement du langage naturel et de vision par ordinateur », assure Meta. Le but est d’aller vers des modèles dépassant les mille milliards d’hyperparamètres. Et vers des jeux de données allant jusqu’à 1 exaoctet. En toile de fond, un mot d’ordre : le métavers, actuel mantra du groupe américain. Et deux axes qui ressortent. D’une part, le développement d’outils en réalité augmentée. De l’autre, la traduction « en temps réel ».

Avec quelles données ?

Le cluster IA précédent exploitait uniquement des données publiques, affirme Meta. Avec RSC, ce sera différent. L’entreprise va y injecter des éléments « du contenu généré par les utilisateurs », issu de ses « systèmes de production ».

Quelles promesses dans ce contexte ? Essentiellement :

– Avant tout traitement, vérifier que les données ont correctement été rendues anonymes

– RSC est isolé du réseau internet ; il n’est connecté qu’au réseau interne de Meta

– Déchiffrement des données uniquement dans la mémoire des GPU ; clés de déchiffrement régulièrement supprimées

Illustrations © Meta

Recent Posts

IA générative : l’Autorité de la concurrence pointe de sérieux risques

Dans un avis consultatif, l'Autorité de la concurrence a identifié les risques concurrentiels liés à…

2 jours ago

OpenAI signe un accord de contenu avec Time

OpenAI signe un « partenariat de contenu stratégique » avec Time pour accéder au contenu…

2 jours ago

Atos : David Layani (Onepoint) veut sortir du capital

Au lendemain du rejet de sa proposition de restructuration, David Layani annonce sa démission du…

2 jours ago

Évaluer les LLM, un défi : le cas Hugging Face

Après un an, Hugging Face a revu les fondements de son leaderboard LLM. Quels en…

3 jours ago

Mozilla face au dilemme de la GenAI dans Firefox

Mozilla commence à expérimenter divers LLM dans Firefox, en parallèle d'autres initiatives axées sur l'intégration…

3 jours ago

VMware tente d’orienter vers VCF les déploiements pré-Broadcom

VMware met VCF à jour pour y favoriser la migration des déploiements qui, sur le…

4 jours ago