Deep learning : Microsoft booste BERT pour les développeurs

À travers le moteur d'inférence ONNX Runtime, Microsoft ouvre aux développeurs ses dernières optimisations du modèle de langage BERT.

Publié par Clément Bohic le 22 janv. 2020 | Mis à jour le 31 déc. 2021 à 13:26

Lecture
2 min

Imprimer

En novembre dernier, Microsoft annonçait des avancées dans le domaine du traitement automatique du langage naturel sur son moteur de recherche Bing.

Il a décidé d'en faire bénéficier les développeurs, en les intégrant à ONNX Runtime.

Ce moteur d'inférence est open source depuis novembre 2018. Il est destiné à exécuter des modèles au format ONNX (Open Neural Network Exchange ; format que Microsoft et Facebook avaient lancé en 2017 pour favoriser la portabilité des algorithmes de deep learning entre frameworks IA).

La version 1.1.0, publiée il y a quelques semaines, embarque les avancées en question. Elles portent sur le modèle de langage BERT (Bidirectional Encoder Representations from Transformers), né à l'initiative de Google.

Microsoft exploite BERT à plusieurs niveaux de son moteur de recherche. Entre autres :

Interprétation des requêtes des internautes
Reconnaissance de formes (pour les images dépourvues de texte alternatif et autres métadonnées)
Interprétation des légendes résumant des blocs de texte

Les GPU, mais pas que

Par opposition aux réseaux neuronaux « traditionnels » qui traitent les mots les uns après les autres, les « transformateurs » tels que BERT interprètent les relations entre un mot et ses voisins. Problème : mis à l'échelle d'un moteur de recherche, ils posent des problèmes de coût et de performances.

Intégré tel que dans Bing, BERT aurait requis des dizaines de milliers de serveurs pour traiter des millions de requêtes par seconde avec une latence acceptable.

En s'appuyant sur ses VM Azure série N, Microsoft en a amélioré l'exécution sur GPU pour favoriser le calcul parallèle.

Sur les VM NV6, la latence d'inférence a été divisée par près de 4, passant de 77 ms (après optimisation sur CPU) à 20 ms (sur GPU).

Réimplémenté grâce aux API C++ TensorRT en partenariat avec Nvidia, le modèle a pu réaliser 4 inférences en 9 ms.

En exploitant la technologie Tensor Core de Nvidia sur les VM NC6s_v3, la latence est passée à 6 ms pour un lot de 64 opérations d'inférence.

À ce niveau de performance, quelque 200 VM Azure on permis de traiter 1 million de requêtes par seconde à l'échelle mondiale.

À travers ONNX Runtime, Microsoft propose ces optimisations dans des versions « améliorées » au sens où elles fonctionnent également sur CPU.

Photo d'illustration © Natalia Shepeleva - Shutterstock.com

Publié par :
Clément Bohic

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Deep learning : Microsoft booste BERT pour les développeurs

Les GPU, mais pas que

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

{ Tribune Expert } - La voie vers une véritable IA open source

S’abonner

Les enjeux de la supervision du système d’information !

La Threat Intelligence : quand, quoi et comment ?

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Les GPU, mais pas que

S’abonner

Partager l'épisode