Face au phénomène ChatGPT, IBM sort (un peu) du bois

Dans l'effervescence autour des IA génératives, IBM vient occuper le terrain en parlant de son supercalculateur Vela.

Publié par Clément Bohic le 10 févr. 2023 | Mis à jour le 14 févr. 2023 à 14:44

Lecture
2 min

Imprimer

Les modèles de fondation* peuvent-ils s'exécuter efficacement sur des infrastructures composées de matériel « sur étagère » ? IBM a suivi cette piste... pour en arriver à Vela.

Le groupe américain vient de lever le voile sur ce « superordinateur IA » - pour reprendre ses termes, les mêmes que Microsoft utilise dans le cadre de son partenariat avec OpenAI. Ses équipes de recherche l'utilisent, affirme-t-il, depuis mai 2022.

Vela a la particularité d'être intégré avec le cloud d'IBM. Il peut donc en exploiter les composantes (VPC, stockage objet...) et les ressources pour monter en charge.

Concrétiser cette intégration a impliqué de développer un système capable d'exploiter du réseau standard de type Ethernet (par opposition à des technologies dédiées comme InfiniBand).

Pour éviter le goulet d'étranglement, on a notamment activé le SR-IOV (virtualisation d'entrée-sortie à racine unique), les extensions VMX et les pages mémoire larges. Tout en associant un système de contrôle de débit à l'API FSDP (Fully Shared Data Parallel) de PyTorch. Laquelle permet de distribuer les modèles et leurs données entre les GPU.

Vela : VM plutôt que bare metal

L'expérimentation a reposé pour l'essentiel sur du matériel « standard ». En l'occurrence, des noeuds dotés de processeurs x86, de GPU NVIDIA, du NVLink et de deux liens 100 Gbps chacun.

La base est similaire pour Vela. Chaque noeud embarque deux Xeon Scalable (Cascade Lake), quatre disques NVMe de 3,2 To, 1,5 To de RAM et 8 GPU A100 (80 Go) avec NVLink et NVSwitch.

IBM a fait le choix d'instancier des VM plutôt que d'allouer du matériel nu. Motif : cela facilite la montée en charge dynamique des clusters (Vela utilise OpenShift) et la réattribution de ressources entre workloads. Les technologies susmentionnées viennent réduire la surcharge inhérente à ce choix. Elles permettent de « masquer » la latence réseau derrière la latence GPU. Latence qu'IBM estime pouvoir diviser par deux en déploiement le RoCE (RDMA over Converged Ethernet) et le GDR (GPU Direct RDMA).

Sur tout noeud, chaque port de l'interface réseau est connecté à un switch de rack différent. Et chacun de ces switchs est connecté, via deux liens 100G, à cinq spine switches.

* De grande taille, entraînés sur une petite quantité de données non étiquetées, et adaptables à des tâches en aval.

Photo d'illustration © Chetan Creation - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

#IBM

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Face au phénomène ChatGPT, IBM sort (un peu) du bois

Vela : VM plutôt que bare metal

La CNIL face aux limites du chiffrement homomorphe

Quelle infrastructure on-premise pour porter une stratégie IA ?

De l'UX à l'AX : penser les interfaces pour les agents IA

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

IA et copyright : la perspective d'une norme IETF réconciliatrice

S’abonner

Sécuriser les solutions de communications unifiées et [...]

Optimisez votre gestion documentaire avec la GED

Simplifier l’architecture et améliorer la sécurité

Un guide pour sécuriser la connectivité des [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Vela : VM plutôt que bare metal

S’abonner

Partager l'épisode