Pour gérer vos consentements :

Llama 2, vitrine de Dell dans l’IA générative

Slurm, Kubernetes ou les deux ? Quel(s) type(s) de stockage pour les checkpoints et les datasets ? Quelle connectivité GPU ? Autant d’aspects que Dell aborde dans son architecture de référence pour l’entraînement de modèles d’IA générative.

Il a décidé d’en rappeler l’existence sous l’angle du « partenariat avec Meta ». Promesse, sur le papier : favoriser le déploiement des modèles Llama 2 sur site (comprendre : sur de l’infrastructure made in Dell).

Le levier : cette architecture de référence… « essentiellement axée sur Llama 2 », pour reprendre les termes du groupe américain. De la présentation des méthodes d’entraînement aux résultats des tests de performance, il n’y a effectivement pas de place pour d’autres modèles. Tout au plus BLOOM, Falcon et MPT sont-ils cités en introduction.

Au niveau hardware, le design suggéré repose, pour la partie compute, sur des serveurs PowerEdge XE9680 à 8 GPU H100-SXM5. Pour la partie stockage, sur des nœuds PowerScale (F600 ou F900). Pour la partie réseau, préférentiellement sur du PowerSwitch Z9432F-ON (100/400 GbE). Le plan de contrôle est sur des serveurs R660.

Au niveau logiciel, il y a plusieurs briques NVIDIA : la plate-forme AI Enterprise, la plate-forme AI Enteprise avec le framework NeMo, le serveur d’inférence Triton et l’orchestrateur Base Command Manager Essentials. Dell y associe ses outils de gestion OpenManage Enterprise, Power Manager et CloudIQ.

L’architecture réseau physique se présente comme suit. Le gestion, le stockage et le trafic nord-sud se font sur Ethernet. InfiniBand – en configuration HDR ou NDR – gère la connectivité est-ouest.

cnvrg.io validé en inférence

Dell dispose aussi d’une architecture de référence pour l’inférence. Elle exploite des serveurs PowerEdge R760xa (en A100 ou H100). Pour le stockage, c’est du PowerScale, de l’ECS et/ou de l’ObjectScale. Et pour le réseau, du PowerSwitch S5232F-ON (25/100 Gb) ou S5248F-ON (25 Gb).

Pour valider son design en entraînement, Dell a testé les méthodes de réglage fin supervisé (SFT), d’optimisation de prompts (p-tuning) et d’adaptation à faible rang (LoRA). Ses jeux de données de référence : Dolly (origine Databricks) et Alpaca (Stanford). Le tableau suivant présente les résultats sur le premier avec un nœud PowerEdge XE9680.

Illustration principale © AJay – Adobe Stock

Recent Posts

Vers des mises à jour cumulatives intermédiaires pour Windows

Pour réduire la taille des mises à jour de Windows, Microsoft va mettre en place…

35 minutes ago

RH, finances, stratégie… Les complexités de la Dinum

De l'organisation administrative à la construction budgétaire, la Cour des comptes pointe le fonctionnement complexe…

20 heures ago

SpreadSheetLLM ou la promesse d’une GenAI plus à l’aise avec Excel

Sous la bannière SpreadSheetLLM, Microsoft propose un framework destiné à optimiser le traitement des feuilles…

21 heures ago

Comment AT&T a payé une rançon pour le vol de ses données

Selon le magazine Wired, AT&T aurait payé près de 400 000 $ à un pirate…

23 heures ago

Banni, Kaspersky quitte les États-Unis

Confronté à un bannissement généralisé, Kaspersky va se retirer progressivement du marché américain, à partir…

1 jour ago

La « coche bleue », mais pas que : X accusé d’enfreindre le DSA

Voilà X officiellement accusé d'infractions au DSA. La Commission européenne ne valide pas le système…

2 jours ago