Pour gérer vos consentements :

Arcadia : ce que Meta vise avec ce simulateur de workloads IA

Comment aider les ingés réseau à mieux comprendre l’impact de leurs actions sur l’exécution de tâches IA ? Meta travaille sur ce sujet dans le cadre de son projet Arcadia.

Le groupe américain n’en est pas encore à ce stade. Mais il a posé les premiers jalons, en l’objet d’un simulateur*. Celui-ci a trois modes de fonctionnement :

– Paquet
Simulation en 1:1 avec jusqu’à 12 000 accélérateurs par cluster. Tous les détails matériels (design du compute, spécifications NIC, architecture des switchs…) sont capturés.

– Flux
Simulation en 1000:1 (8 heures pour simuler une année) avec jusqu’à 32 000 accélérateurs par cluster. À ce niveau, on suit la topologie, le routage et le contrôle de flux.

– Tâche
Simulation en 25000:1 (20 minutes pour simuler une année). Ici, on se concentre sur le dimensionnement des clusters, la planification des tâches et la fiabilité.

Arcadia : du machine learning pour optimiser l’IA

Arcadia accepte, en entrée, des informations allant des protocoles réseau aux plans de salles en passant par les domaines de défaillance. En sortie, il peut produire des données sur la performance (en inférence comme en entraînement), l’utilisation des ressources et la disponibilité.

Arcadia génère ses simulations à partir des traces des workloads de prod. Il en extrait diverses caractéristiques (taille des tenseurs, dépendances, structure en graphe…) et s’en nourrit par apprentissage non supervisé.

Sur ce socle, l’aide aux ingés réseau pourrait se traduire, par exemple, par la recommandation de workloads à déplacer afin qu’ils ne soient pas affectés par un drain sur un switch donné. On peut imaginer automatiser la démarche.

Il est aussi question d’intégrer la prise en charge d’une autre brique dans le développement de laquelle Meta s’est impliqué : les traces Chakra. Elles offrent une représentation des workloads IA sous forme de graphe… sans avoir à partager d’informations sur l’architecture des modèles.

* Arcadia simule l’exécution des tâches ; il ne prédit pas leurs performances.

Illustration principale © CESM I Studio – Adobe Stock

Recent Posts

IA générative : l’Autorité de la concurrence pointe de sérieux risques

Dans un avis consultatif, l'Autorité de la concurrence a identifié les risques concurrentiels liés à…

2 jours ago

OpenAI signe un accord de contenu avec Time

OpenAI signe un « partenariat de contenu stratégique » avec Time pour accéder au contenu…

2 jours ago

Atos : David Layani (Onepoint) veut sortir du capital

Au lendemain du rejet de sa proposition de restructuration, David Layani annonce sa démission du…

2 jours ago

Évaluer les LLM, un défi : le cas Hugging Face

Après un an, Hugging Face a revu les fondements de son leaderboard LLM. Quels en…

3 jours ago

Mozilla face au dilemme de la GenAI dans Firefox

Mozilla commence à expérimenter divers LLM dans Firefox, en parallèle d'autres initiatives axées sur l'intégration…

3 jours ago

VMware tente d’orienter vers VCF les déploiements pré-Broadcom

VMware met VCF à jour pour y favoriser la migration des déploiements qui, sur le…

4 jours ago