Arcadia : ce que Meta vise avec ce simulateur de workloads IA

Comment aider les ingés réseau à mieux comprendre l’impact de leurs actions sur l’exécution de tâches IA ? Meta travaille sur ce sujet dans le cadre de son projet Arcadia.

Le groupe américain n’en est pas encore à ce stade. Mais il a posé les premiers jalons, en l’objet d’un simulateur*. Celui-ci a trois modes de fonctionnement :

– Paquet
Simulation en 1:1 avec jusqu’à 12 000 accélérateurs par cluster. Tous les détails matériels (design du compute, spécifications NIC, architecture des switchs…) sont capturés.

– Flux
Simulation en 1000:1 (8 heures pour simuler une année) avec jusqu’à 32 000 accélérateurs par cluster. À ce niveau, on suit la topologie, le routage et le contrôle de flux.

– Tâche
Simulation en 25000:1 (20 minutes pour simuler une année). Ici, on se concentre sur le dimensionnement des clusters, la planification des tâches et la fiabilité.

Arcadia : du machine learning pour optimiser l’IA

Arcadia accepte, en entrée, des informations allant des protocoles réseau aux plans de salles en passant par les domaines de défaillance. En sortie, il peut produire des données sur la performance (en inférence comme en entraînement), l’utilisation des ressources et la disponibilité.

Arcadia génère ses simulations à partir des traces des workloads de prod. Il en extrait diverses caractéristiques (taille des tenseurs, dépendances, structure en graphe…) et s’en nourrit par apprentissage non supervisé.

Sur ce socle, l’aide aux ingés réseau pourrait se traduire, par exemple, par la recommandation de workloads à déplacer afin qu’ils ne soient pas affectés par un drain sur un switch donné. On peut imaginer automatiser la démarche.

Il est aussi question d’intégrer la prise en charge d’une autre brique dans le développement de laquelle Meta s’est impliqué : les traces Chakra. Elles offrent une représentation des workloads IA sous forme de graphe… sans avoir à partager d’informations sur l’architecture des modèles.

* Arcadia simule l’exécution des tâches ; il ne prédit pas leurs performances.

Illustration principale © CESM I Studio – Adobe Stock