Whisper : un modèle multilingue made in OpenAI émerge face à BLOOM

Jusqu'où privilégier un entraînement à l'échelle aux dépens de la qualité des données ? OpenAI a suivi cette voie avec Whisper, désormais open source.

Publié par Clément Bohic le 22 sept. 2022 | Mis à jour le 23 sept. 2022 à 10:42

Lecture
3 min

Imprimer

Entre quantité et qualité des données sources, où se trouve le bon compromis pour entraîner un modèle de reconnaissance vocale multilingue ? Cette question a sous-tendu le développement de Whisper. À la baguette, OpenAI, qui vient de publier le projet sous licence MIT.

Whisper est un transformeur Seq2seq. Bien qu'évalué essentiellement sur la reconnaissance vocale, il peut réaliser d'autres tâches. En l'occurrence, la traduction, l'identification de langues et la détection de voix.

(Cliquer sur les images pour les agrandir.)

OpenAI a décidé non pas de s'appuyer sur les datasets de référence, mais de compiler son propre corpus. Moins qualitatif, avec une phase réduite de préparation des données, mais aussi plus volumineux : 680 000 heures d'audio avec les transcriptions correspondantes. Dans le détail :

- 438 000 heures d'audio en anglais avec transcriptions en anglais
- 126 000 heures dans 98 autres langues avec transcriptions en anglais
- 117 000 heures ces mêmes langues avec transcription correspondante

En toile de fond, des travaux menés, notamment, dans le domaine de la vision par ordinateur (Mahajan et al., 2018 ; Kolesnikov et al., 2020). Et qui ont précisément consisté à prendre ses distances avec les jeux de données référents de type ImageNet, en faveur de datasets moins supervisés. Ils avaient permis de constaté une meilleure capacité de généralisation sur les modèles entraînés.

OpenAI a publié cinq versions de Whisper, à autant de stades d'entraînement. Tous, sauf le plus grand (1,55 milliard d'hyperparamètres), sont déclinés en multilingue ou anglais seulement.

Exception faite de la reconnaissance vocale en anglais, les performances augmentent avec la quantité de données (ASR multilingue, traduction, identification de langues).

À petite échelle, les modèles « anglais uniquement » ont de meilleurs résultats. Puis la tendance s'inverse en faveur de ceux entraînés sur plusieurs tâches.

Cent fois plus petit que BLOOM

Sur le même créneau, on a récemment vu émerger BLOOM (BigScience Large Open-science Open-access multilingual Language Model). Avec ses 70 couches de neurones, 112 têtes d'attention et 176 milliards de paramètres, il ne joue pas dans la même cour que Whisper. Il faut dire que les moyens qu'il a monopolisés sont sans comparaison.

Un millier de scientifiques se sont impliqués dans son développement, représentant quelque 70 pays et des sociétés comme Airbus, Meta AI, Mozilla, Orange Labs ou Ubisoft. L'entraînement a eu lieu en France, sur le supercalculateur Jean Zay, localisé à Saclay (Essonne). La dotation en ressources de calcul - subvention CNRS + GENCI - pour la première phase d'entraînement est estimée à environ 3 millions d'euros.

À la base de BLOOM, pas d'architecture maison, mais un fork de Megatron-DeepSpeed. Qui lui-même dérive de Megatron-LM (modèle de langage made in NVIDIA à 345 millions de paramètres, architecturé sur le modèle de GPT-2 et entraîné sur Wikipédia, OpenWebText et CC-Stories).

Illustration principale ©

sponsorisé

D'une mine à la supply chain, de l'OT à l’industrie 4.…

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

SNCF Connect & Tech explore toutes les voies de la rés…23:13

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Whisper : un modèle multilingue made in OpenAI émerge face à BLOOM

Cent fois plus petit que BLOOM

AI Act : des exigences de documentation des modèles prennent forme

Protection des données personnelles : un état de la jurisprudence

RGPD : comment la doctrine de la CNIL a évolué en 2024

Un modèle spécial OCR chez Mistral AI

Microsoft x OpenAI : fin de l'enquête de concurrence au Royaume-Uni

S’abonner

Améliorez l’expérience client et optimisez vos coûts, [...]

Révéler le paysage des menaces avec le rapport 2024 [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Cent fois plus petit que BLOOM

S’abonner

Partager l'épisode