Mozilla restructure aussi sur la reconnaissance vocale

Mozilla change de braquet sur la reconnaissance vocale. Entre le moteur DeepSpeech et l'initiative Common Voice, comment évolue la stratégie ?

Publié par Clément Bohic le 13 avr. 2021 | mis à jour à 11:44

Lecture
3 min

Imprimer

Quel avenir pour les projets de Mozilla dans le domaine de la reconnaissance vocale ? La question s'était posée l'été dernier avec l'annonce de la restructuration des activités de la fondation. Elle a véritablement trouvé réponse hier. Aussi bien sur le moteur DeepSpeech que sur l'initiative Common Voice, destinée à constituer un jeu de données d'entraînement.

Qu'en est-il pour DeepSpeech ? Dans les grandes lignes, les équipes de Mozilla arrêteront, d'ici quelques mois, de contribuer au code. La fondation prendra alors un rôle d'accompagnateur pour le développement d'applications concrètes. Elle a ouvré dans ce sens ces dernières semaines, en réduisant les dépendances nécessaires à l'implémentation du modèle. Un guide doit par ailleurs paraître dans les prochaines semaines. S'y adjoindra un programme de subvention de projets.

Lorsque la nouvelle de la restructuration était tombée, DeepSpeech n'était plus très loin de la v1. On en est finalement resté à la 0.9.3, publiée voilà quatre mois. Elle repose sur un réseau de neurones probabiliste à cinq couches entraîné avec TensorFlow. En inférence, il peut fonctionner sur un Raspberry Pi 4.

Mozilla met ses pions sur Common Voice

Le projet avait pris son envol à la mi-2017, sur la base de travaux de recherche signés Baidu. Après avoir travaillé à partir de jeux de données libres tels que TED-LIUM et LibriSpeech, Mozilla avait enclenché la démarche Common Voice. Le principe : faire appel à la communauté - sur la base du volontariat - pour mettre davantage de matière à disposition de DeepSpeech.

En fin d'année, une première version publique du moteur avait vu le jour, assortie d'un corpus de 500 heures d'audio en anglais. À la mi-2018, le français, l'allemand et le gallois avaient rejoint la liste des langues dans lesquelles la communauté pouvait réaliser des enregistrements. Début 2019, on en comptait une vingtaine, dont le basque, le kabyle et l'espéranto.

Au dernier pointage, on a atteint les 60. L'anglais reste la plus représentée, avec environ 70 000 voix pour quelque 1800 heures d'audio validées. Suivent l'allemand (849 heures ; 13 500 voix), le français* (623 heures ; 12 900 voix) et l'espagnol (351 heures ; 20 100 voix).

Le défi de la diversité

Le corpus dans son ensemble comprend 7335 heures validées, pour 9283 enregistrées. Mozilla est donc proche de son objectif de 10 000 heures, considéré comme « la quantité de données nécessaire pour être en mesure de produire un système de reconnaissance vocale de qualité ».

La fondation se penche désormais sur un autre défi : la diversité. Beaucoup de langues disponibles sur Common Voice comptent encore moins d'une centaine de voix au répertoire. Le luganda (parlé en Ouganda) en fait partie. Même chose pour le iakoute (Sibérie) ou le bas-engadinois (Suisse). Levier probable de mise en action de ce plan : un investissement de 1,5 million de dollars en provenance de NVIDIA.

* Pour la France, le corpus associe, entre autres, des contributions individuelles, des extraits de débats de l'Assemblée nationale, des livres du projet Gutenberg et des extraits de pièces de théâtre sous licence le permettant.

Photo d'illustration © Visual Generation - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

#MOZILLA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Mozilla restructure aussi sur la reconnaissance vocale

Mozilla met ses pions sur Common Voice

Le défi de la diversité

Trois cas d'usage de l'IA à la Cour de cassation

Databricks viserait Neon : vers une autre acquisition OLTP [...]

Chatbot Arena : la remise en cause d'un benchmark IA référent

Process mining : l'automatisation est de moins en moins une option

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Mozilla met ses pions sur Common Voice

Le défi de la diversité

S’abonner

Partager l'épisode