IA : Google tease la prochaine génération de ses TPU

Google a soumis la prochaine génération de ses TPU au benchmark MLPerf. Comment se positionnent ces puces face à l'offre actuelle ?

Publié par Clément Bohic le 31 juil. 2020 | Mis à jour le 3 janv. 2022 à 10:22

Lecture
3 min

Imprimer

À quoi s'attendre avec la prochaine génération des TPU de Google ? La dernière vague du benchmark MLPerf donne des indications. De la classification d'images au jeu de go, elle couvre huit tâches d'entraînement de modèles IA.

Sur les 71 configurations listées, trois sont basées sur ces futurs TPU. La génération actuelle (3^e) est également représentée. D'un côté, dans le cadre d'offres commerciales rattachées au portefeuille Compute Engine. De l'autre, à travers un supercalculateur équipé de 4 096 TPU.

Ce système délivre une puissance de 430 Pflops en crête. Il est capable, avec certains modèles, d'atteindre en moins de 30 secondes les objectifs de performance définis par MLPerf (par exemple, un taux de précision de 75,90 % sur la classification d'images avec ResNet-50).

Qu'en est-il des TPU de 4^e génération ? Google évoque trois apports principaux : augmentation de la bande passante, avancées sur l'interconnexion et performance plus que doublée en multiplication matricielle.

En tenant compte des améliorations logicielles, les performances en entraînement sur 64 TPU sont en moyenne 2,7 plus élevées qu'avec la 3^e génération. C'est avec Mask R-CNN que l'écart est le plus grand (x 3,7).

TPU ou GPU ?

Dans le détail, les résultats sont les suivants :

Classification d'images (jeu de données ImageNet, modèle ResNet-50 v1.5)
Avec 256 TPU de 4^e génération, il a fallu 1,82 minute pour atteindre l'objectif, en entraînement sur TensorFlow.
Alibaba fournit la configuration commerciale qui obtient le résultat le plus proche (1,69 minute). Elle associe 320 CPU Intel Xeon Platinum 8163 et 1 280 GPU Nvidia V100-SXM2-32GB, avec le framework PAI MXNet.
Détection d'objets (jeu de données COCO, modèle SSD)
Avec 256 TPU, il a fallu 1,06 minute pour atteindre l'objectif.
La configuration commerciale qui atteint le résultat le plus proche (1,13 minute) est signée Nvidia. Elle associe 128 Xeon Platinum 8174 et 1 024 GPU V100-SXM3-32GB, avec Nvidia MXNet.
Détection d'objets « avancée » (jeu de données COCO, modèle Mask R-CNN)
Avec 256 TPU, il a fallu 9,95 minutes pour atteindre l'objectif.
La configuration commerciale qui atteint le résultat le plus proche (10,46 minutes) associe 64 CPU AMD EPUC 7742 et 256 GPU A100-SXM4-40GB, avec Nvidia PyTorch.
Traduction « récurrente » (jeu de données WMT anglais-allemand, modèle NMT)
Avec 256 TPU, il a fallu 1,29 minute pour atteindre l'objectif.
La configuration commerciale qui atteint le résultat le plus proche (1,11 minute) associe 128 Xeon Platinum 8174 et 1 024 GPU V100-SXM3-32GB, avec Nvidia PyTorch.
Traduction « non récurrente » (jeu de données WMT anglais-allemand, modèle Transformer)
Avec 256 TPU, il a fallu 0,78 minute pour atteindre l'objectif.
La configuration commerciale qui atteint le résultat le plus proche (0,82 minute) associe 120 Xeon Platinum 8174 et 960 GPU V100-SXM3-32GB.
Traitement du langage naturel (jeu de données Wikipédia au 1^er janvier 202, modèle BERT)
Avec 256 TPU, il a fallu 1,82 minute pour atteindre l'objectif.
La configuration commerciale qui atteint le résultat le plus proche (1,48 minute) associe 256 CPU AMD EPYC 7742 et 1 024 GPU A100-SXM4-40GB, avec PyTorch.
Recommandation (jeu de données de 1 To, modèle DLRM)
Avec 64 TPU, il a fallu 1,21 minute pour atteindre l'objectif.
La configuration commerciale qui atteint le résultat le plus proche (3,33 minutes) associe 2 CPU EPYC 7742 et 8 GPU A100-SXM4-40GB, avec Merlin HugeCTR + Nvidia DL.
Apprentissage par renforcement (jeu de go, modèle Mini Go)
Avec 64 TPU, il a fallu 150,95 minutes pour atteindre le taux de victoires attendu (50 %).
La configuration commerciale qui atteint le résultat le plus proche (165,72 minutes) associe 4 CPU EPYC 7742 et 16 GPU A100-SXM4-40GB, avec la Nvidia TensorFlow.

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

IA : Google tease la prochaine génération de ses TPU

TPU ou GPU ?

Trois cas d'usage de l'IA à la Cour de cassation

Databricks viserait Neon : vers une autre acquisition OLTP [...]

Chatbot Arena : la remise en cause d'un benchmark IA référent

Process mining : l'automatisation est de moins en moins une option

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Briser les barrières de la sécurité en entreprise

Symphony 25 : Sécuriser du code au cloud jusqu'au SOC [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2