Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Deep learning : Microsoft booste BERT pour les développeurs

À travers le moteur d'inférence ONNX Runtime, Microsoft ouvre aux développeurs ses dernières optimisations du modèle de langage BERT.

Publié par Clément Bohic le 22 janv. 2020 | Mis à jour le 31 déc. 2021 à 13:26

Lecture
2 min

Imprimer

En novembre dernier, Microsoft annonçait des avancées dans le domaine du traitement automatique du langage naturel sur son moteur de recherche Bing.

Il a décidé d'en faire bénéficier les développeurs, en les intégrant à ONNX Runtime.

Ce moteur d'inférence est open source depuis novembre 2018. Il est destiné à exécuter des modèles au format ONNX (Open Neural Network Exchange ; format que Microsoft et Facebook avaient lancé en 2017 pour favoriser la portabilité des algorithmes de deep learning entre frameworks IA).

La version 1.1.0, publiée il y a quelques semaines, embarque les avancées en question. Elles portent sur le modèle de langage BERT (Bidirectional Encoder Representations from Transformers), né à l'initiative de Google.

Microsoft exploite BERT à plusieurs niveaux de son moteur de recherche. Entre autres :

Interprétation des requêtes des internautes
Reconnaissance de formes (pour les images dépourvues de texte alternatif et autres métadonnées)
Interprétation des légendes résumant des blocs de texte

Les GPU, mais pas que

Par opposition aux réseaux neuronaux « traditionnels » qui traitent les mots les uns après les autres, les « transformateurs » tels que BERT interprètent les relations entre un mot et ses voisins. Problème : mis à l'échelle d'un moteur de recherche, ils posent des problèmes de coût et de performances.

Intégré tel que dans Bing, BERT aurait requis des dizaines de milliers de serveurs pour traiter des millions de requêtes par seconde avec une latence acceptable.

En s'appuyant sur ses VM Azure série N, Microsoft en a amélioré l'exécution sur GPU pour favoriser le calcul parallèle.

Sur les VM NV6, la latence d'inférence a été divisée par près de 4, passant de 77 ms (après optimisation sur CPU) à 20 ms (sur GPU).

Réimplémenté grâce aux API C++ TensorRT en partenariat avec Nvidia, le modèle a pu réaliser 4 inférences en 9 ms.

En exploitant la technologie Tensor Core de Nvidia sur les VM NC6s_v3, la latence est passée à 6 ms pour un lot de 64 opérations d'inférence.

À ce niveau de performance, quelque 200 VM Azure on permis de traiter 1 million de requêtes par seconde à l'échelle mondiale.

À travers ONNX Runtime, Microsoft propose ces optimisations dans des versions « améliorées » au sens où elles fonctionnent également sur CPU.

Photo d'illustration © Natalia Shepeleva - Shutterstock.com

Publié par :
Clément Bohic

Tags associés :

AI Act : l'UE à la recherche de cas pratiques

Par Clément Bohic le 18 nov. 2024

{ Tribune Expert } - Grands modèles de langage (LLM), la menace [...]

Par Shaked Reiner * le 18 nov. 2024

Spécialisation des LLM : LoRA, une forme d'illusion ?

Par Clément Bohic le 15 nov. 2024

Comment le CISPE propose de décliner le Data Act

Par Clément Bohic le 13 nov. 2024

La GenAI appliquée à la supervision de posture de sécurité : le [...]

Par La rédaction le 13 nov. 2024

Abonnez-vous à Silicon Magazine !

Recevez le magazine chez vous ou sur votre lieu de travail et accédez à la version numérique à tout moment !

à partir de 120€ par an pour 1 an d'abonnement

J'en profite

Livres Blancs #cloud

Checkmarx

La meilleure liste de contrôle de Sécurité du code au cloud

Changement de l'impact et du rôle des applications cloud. Qu'est-ce que le Code to Cloud ? Le Code to Cloud [...]

Télécharger

Hitachi

VSP One Block, la simplification de la gestion des [...]

Découvrez comment VSP One Block d'Hitachi Vantara optimise le stockage, réduit l’énergie et renforce la sécurité [...]

Télécharger

Elastic

Le guide de l'observabilité moderne : considérations, [...]

Le parcours vers l’observabilité est plus important que jamais pour les entreprises [...]

Télécharger

IONOS

Sécurité, personnalisation, expertise : la triple [...]

Depuis plus de 30 ans, IONOS a développé une expérience unique et s’impose désormais comme un acteur Cloud de [...]

Télécharger

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

7 novembre 2024

La MasterClass Silicon - NIS2

Organisé par silicon.fr

Inscrivez-vous

4 juillet 2024

La Matinale Silicon : IA & Cybersécurité

Organisé par Silicon

Voir le replay

29 mai 2024

Le grand dîner de gala de la Communauté

Organisé par Silicon

Revivre en images

Voir tous les événements

Inscrivez-vous à la Newsletter pour recevoir les dernières actualités

Abonnez-vous au magazine Silicon et profitez de contenus exclusifs !

Boostez votre expertise professionnelle en accédant aux informations clés de votre domaine.