MLPerf : la quête de benchmarks IA représentatifs
Publié par Clément Bohic le - mis à jour à

La v5 du benchmark MLPerf Inference accueille quatre tests supplémentaires, censés refléter l'usage réel des modèles d'IA.
Les réseaux de neurones en graphes, représentatifs de l'usage réel des modèles d'IA ?
La dernière version de la suite MLPerf Inference accueille en tout cas un test fondé sur cette architecture. Plus précisément sur une déclinaison exploitant des mécanismes d'attention et gérant les structures multirelationnelles en opérant une différenciation par type d'arête (RGAT, Relational Graph Attention Network).
Pour rappel, MLPerf ne vise pas à évaluer les modèles d'IA, mais les configurations destinées à les faire tourner.
Le nouveau test RGAT repose sur le plus gros ensemble public de données de graphe : l'IGB-H (Illinois Graph Benchmark Heterogenous). Celui-ci contient quatre types de noeuds : des articles académiques, leurs domaines, leurs auteurs et les instituts auxquels ces derniers sont rattachés. La version complète comprend plus d'un demi-million de noeuds et près de 6 milliards d'arêtes. Avec une dimension d'embedding de 1024, il pèse plus de 2 To. La tâche à réaliser : catégoriser les noeuds "articles" entre 2983 sujets.
Dans le cadre de MLPerf Inference, des arêtes inversées ont été ajoutées, ainsi que des boucles pour les articles (le nombre d'arêtes a ainsi plus que doublé). Cette première itération du benchmark n'a couvert que la performance "hors ligne", reflérant, selon MLCommons, les conditions d'utilisation de beaucoup d'applications en production. En fonction de l'intérêt, le scénario "serveur" pourra être ajouter. Et avec lui, d'autres indicateurs que la fréquence d'échantillonnage.
INTER
Un autre test ajouté dans MLPerf Inference 5.0 touche au domaine automobile. Son principe : détecter des objets 3D à partir d'images et de points lidar, à partir du Waymo Open Dataset. MLCommons a choisi d'utiliser la technique PointPainting, qui fusionne ces deux types de données. Dans un premier temps, un modèle DeepLabv3+ avec backbone ResNet-50 effectue une segmentation des images et concatène les scores avec les points lidar. Un autre (PointPillars) réalise ensuite les prédictions.
INTER
La partie LLM s'enrichit quant à elle de deux tests. Ils utilisent respectivement Llama 2 Chat 70B et Llama 3.1 405B. MLCommons explique avoir choisi ce dernier pour, entre autres, sa fenêtre de contexte (128k), son aptitude à extraire des données structurées et ses capacités de raisonnement multisource. Le dataset retenu mêle plusieurs ensembles de données ouverts :
Le test Llama 2 Chat 70B était déjà présent dans MLPerf Inference 4.0. Mais les plafonds de latence avaient été définis par rapport aux capacités hardware d'alors (2 secondes pour le premier token ; 200 ms pour chacun des suivants). Pour se rapprocher des exigences actuelles, MLCommons a revu les seuils, plaçant le 99e percentile à 450 ms (premier token) et 40 ms (suivants).
INTER
23 organisations ont participé à cette vague du benchmark. Pour cinq d'entre elles, c'était une première : CoreWeave, FlexAI, GATEOverflow, Lambda et MangoBoost.
Nous nous intéressons ici à la catégorie référente, dite "datacenter - closed". "Datacenter" par opposition à la catégorie "edge". "Closed", parce qu'elle autorise à modifier l'implémentation de base fournie par MLCommons.
Les H200, privilégiés pour le test RGAT
Les meilleures configurations embarquent toutes 8 GPU NVIDIA H200-SXM-141GB.
Les plus performantes dépassent les 450 000 échantillons par seconde. Il s'agit de serveurs Lenovo ThinkSystem SR780a et SR680a en Xeon Platinum 8568Y+.
Suivent des serveurs :
- NVIDIA (Xeon Platinum 8480C ; 441 817 échantillons/seconde)
- Supermicro (EPYC 9654 à 440 893 échantillons/seconde ; Xeon Platinum 8568Y+ à 430 566 é./s)
- GigaComputing (Xeon Platinum 8480+ ; 418 270 é./s)
- Oracle (Xeon Platinum 8480C ; 410 017 é./s)
Llama 3.1 : un net écart entre les puces B200 et GB200
À un peu moins de 14 000 échantillons par seconde, c'est une configuration NVIDIA à 72 accélérateurs GB200-186GB qui s'en sort le mieux.
Suivent quatre configurations à 8 GPU B200-SXM-180 près de dix fois moins performantes, toutes en Xeon. Elles émanent de Google, NVIDIA et Supermicro.
L'écart est un peu moins important en mode serveur : 8850 requêtes par seconde pour la première config vs autour de 1000 pour les quatre autres.
Llama 2 : entre H200 et B200, un écart d'un à trois
En tenant compte des nouveaux seuils de latence, une configuration NVIDIA DGX B200 (56 CPU Xeon 8570 + 8 GPU B200-SXM-180) atteint 98 858 échantillons/seconde sur le test Llama 2 hors ligne.
Suivent deux serveurs Supermicro, également en Xeon, respectivement à 93 857 et 92 689 é./s.
On trouve ensuite un paquet de configurations en H200-SXM-141 entre 30 000 et 35 000 é./s. Un Dell PowerEdge en H100 atteint cette même fourchette (les autres étant plutôt autour de 23 000 é./s).
En mode serveur, les deux configurations Supermicro dépassent d'une courte tête celle de NVIDIA (62 265 requêtes/seconde pour la meilleure). Les configs en H200 (ASUSTeK, Cisco, Dell, GigaComputing, HPE, Lambda, Lenovo, NVIDIA, Supermicro) avoisinent les 20 000 r/s. Celles en H100 sont dans la fourchette de 10 000 à 15 000.
Illustration © KanawatVector - Adobe Stock