Ce qu'il faut savoir sur Moshi, l'IA vocale de Kyutai

Kyutai a officialisé son IA vocale Moshi et en a ouvert une démo au public. Voici quelques éléments à son sujet.

Publié par Clément Bohic le 4 juil. 2024 | mis à jour à 15:48

Lecture
3 min

Imprimer

Que peut-on produire avec 1000 GPU ? Chez Kyutai, la réponse s’appelle Moshi. Il a fallu six mois pour développer cette IA vocale. La voilà ouverte au public, en tant que prototype.

Qui a développé Moshi ?

Officiellement, huit personnes se sont impliquées. Toutes ont pris part à la présentation officielle, ce 3 juillet 2024. Parmi elles, les six scientifiques qui composaient l’équipe initiale : Alexandre Défossez, Édouard Grave, Hervé Jégou, Laurent Mazaré, Patrick Pérez et Neil Zeghidour (cf. notre article à leur sujet). S’y ajoutent Emmanuel Orsini et Amélie Royer. Le premier, diplômé de Polytechnique et Télécom Paris est un ancien de Google/Deepmind. La seconde, passée par l’ENS Rennes et l’Institut autrichien des sciences et technologies, a précédemment travaillé chez Qualcomm.

Pourquoi ce nom ?

« Moshi moshi », c’est le « allô » japonais. On est dans la lignée de « kyutai », qui signifie « sphère » dans cette même langue.

Quelle est la raison d’être de Moshi ?

Il s’agissait de fusionner en un réseau de neurones le pipeline complexe des IA vocales actuelles (détection de parole, transcription textuelle, génération d’une réponse texte, puis synthèse vocale). Autant pour réduire la latence que pour conserver des éléments que la modalité texte fait perdre (émotions, intonations, hésitations, acoustique…).

Comment Kyutai a-t-il entraîné Moshi ?

Kyutai est parti d’un LLM maison (Helium) à 7 milliards de paramètres. Il l’a d’abord entraîné exclusivement sur du texte, pour lui faire acquérir des connaissances.
La deuxième phase a reposé sur un mix de texte et d’audio annoté afin que le modèle en apprenne une représentation commune.
À ce stade, Moshi ne savait pas encore tenir une discussion : il générait un flux continu. On l’a donc ajusté, sur des données synthétiques : 100 000 transcriptions de conversations générées par Helium et passées à la moulinette d’un moteur text-to-speech.
Pour donner une voix à Moshi, Kyutai a eu recours à une actrice audio. Son modèle gère aujourd’hui plus de 70 émotions et styles de discours, affirme-t-il.

Moshi fonctionne-t-il en local ?

Kyutai a promis de publier le code et les poids de Moshi. En attendant, il en propose une démo en ligne, pour des conversations en anglais de 5 minutes max. On peut régler certains paramètres, dont la température et le top_k à la fois pour le texte et l’audio.

Dans sa version cloud, Moshi a une latence d’environ 200 ms – en particulier parce qu’il est capable de parler et d’écouter en parallèle, grâce à l’usage de deux flux audio. Pour le rendre utilisable hors ligne, Kyutai a travaillé à compresser le modèle et l’historique de conversation. Le défi réside, selon A. Royer, dans l’équilibrage du texte et de l’audio, qui se comportent différemment après quantisation.

Kyutai a aussi développé son propre codec audio, qui sait capturer les caractéristiques sémantiques et compresse en 300:1 par rapport au MP3. Ses équipes ont effectué une courte démo sur un MacBook Pro.

Comment détecter du contenu généré par Moshi ?

Kyutai explore deux approches. D’une part, une base de signatures extraites des audios. De l’autre, une forme de filigrane inaudible.

Au-delà d’un modèle, Moshi est un framework adaptable à des tâches, clame Kyutai. Il en a donné un exemple fondé sur l’affinage à partir de conversations téléphoniques collectées aux États-Unis entre 1994 et 2002 (dataset Fisher).

Publié par :
Clément Bohic

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT