MLPerf : les 5 nouveaux systèmes référents en entraînement

Publié par Clément Bohic le 30 juin 2022 - mis à jour à 11:57

Cinq configurations se partagent les premières places sur les huit tests du dernier benchmark MLPerf Training. Quelles sont-elles ?

Un système de machine learning, ça consomme combien d'énergie ? L'an dernier, MLPerf avait publié ses premières statistiques à ce sujet, dans le cadre d'un de ses benchmarks. En l'occurrence, celui qui mesure les performances en inférence.

L'initiative n'englobe pas encore les deux autres benchmarks MLPerf. À savoir celui dédié au HPC et celui qui mesure les performances en entraînement. Pour ce dernier, une nouvelle série de résultats - la cinquième depuis son lancement en 2018 - vient de paraître. Au menu, huit tests. Soit un de plus que dans la vague précédente. Le « petit nouveau » porte sur la détection d'objets, avec le modèle RetinaNet sur le jeu de données Open Images.

(Cliquer pour agrandir.)

Les résultats sont présentés selon deux catégories « Closed » et « Open ». La première impose d'utiliser, pour la mise à l'épreuve, un modèle équivalent à celui de l'implémentation de référence. La seconde autorise des modifications non seulement du modèle, mais aussi des opérations pré- et post-traitement.

Comme à l'accoutumée, la quasi-totalité des résultats sont dans la catégorie « Closed ». Trois systèmes se distinguent en cumulant deux premières places.

H3C case trois systèmes aux sommets

En tête sur la classification d'images (fork de ResNet 1.5 ; dataset ImageNet) et le NLP (BERT sur Wikipédia), il y a un système H3C composé de :

- 2 CPU Intel Xeon Platinum 8380 (40 coeurs à 2,3 GHz)
- 1 GPU NVIDIA A100 PCIe 80 Go
- 1 To de RAM
- 7,68 To sur SSD
- Les versions NGC (NVIDIA) de MXNet, PyTorch et TensorFlow ; Ubuntu 20.04.2

En tête sur la détection d'objets (Mask R-CNN avec backbone ResNet50 sur MS-COCO) et la reconnaissance vocale (RNN-T sur le corpus LibriSpeech), il y a un système NVIDIA composé de :

- 2 CPU AMD EPYC 7742 (64 coeurs)
- 2 GPU NVIDIA A30 24 Go
- 1 To de RAM
- 4 To sur SSD
- PyTorch NVIDIA 20.04 ; Ubuntu 20.04.4

En tête sur la détection d'objets (RetinaNet sur Open Images) et la recommandation (DLRM sur un volume de 1 To de clics), il y a un autre système H3C, composé de :

- 2 CPU Xeon Platinum 8358 (32 coeurs à 2,6 GHz)
- 4 GPU NVIDIA A100 PCIe 80 Go
- 512 Go de RAM
- 2 x 4 To + 1 x 2 To sur SSD
- Les versions NGC de MXNet, PyTorch et TensorFlow 20.04 ; Ubuntu 20.04.2

Chez MLPerf, « GPU » reste synonyme de « NVIDIA »

À la première place sur la segmentation d'images médicales (3D U-Net ; dataset KiTS19, Kidney Tumor Segmentation 2019), un système Nettrix avec :

- 2 CPU Xeon Platinum 8380 (40 coeurs à 2,3 GHz)
- 8 GPU NVIDIA A30 PCIe 24 Go
- 2 To de RAM
- 15,36 To + 1,92 To sur SSD
- MXNet ; Ubuntu 20.04.4

Sur l'apprentissage par renforcement (fork de Minigo sur le jeu de Go 19 x 19), un autre système H3C se retrouve en tête. Sa configuration :

- 2 CPU Xeon Platinum 8362 (32 coeurs à 2,8 GHz)
- 4 GPU NVIDIA A100 SXM 80 Go
- 1 To de RAM
- 2 x 4 To + 1 x 2 To sur SSD
- Les versions NGC de MXNet, PyTorch et TensorFlow 22.04 ; Ubuntu 20.04.2

La rédaction vous recommande

Vers une pénurie de données d'entraînement pour l'IA ?