Recherche

De Moshi à Hibiki : Kyutai applique sa recette à la traduction simultanée

Kyutai s'est appuyé sur l'architecture de son IA vocale Moshi pour en développer une autre : Hibiki, destinée à la traduction simultanée.

Publié par Clément Bohic le - mis à jour à
Lecture
3 min
  • Imprimer
De Moshi à Hibiki : Kyutai applique sa recette à la traduction simultanée
© généré par IA

À quoi peut servir une architecture modélisant en même temps plusieurs séquences de tokens ? Par exemple, à fluidifier le dialogue.

Kyutai a concrétisé cette approche avec Moshi. Cette IA vocale expérimentale dévoilée en juillet 2024 traite simultanément les flux audio en entrée et en sortie.

Sur cette base, le laboratoire financé notamment par Iliad et CMA CGM a exploré une autre piste : la traduction simultanée. Ses travaux se matérialisent en un LLM à 2,7 milliards de paramètres nommé Hibiki ("écho" en japonais). Il ne gère pour le moment que la traduction du français vers l'anglais. Ses poids sont ouverts sous licence CC-BY 4.0. Il en existe une version 1.7B (Hibiki-M) destinée à un usage sur terminaux mobiles (testé sur iPhone 16 Pro). L'un et l'autre sont au format BF16, en attendant des versions quantifiées. Du code d'inférence est proposé pour PyTorch, Rust, MLX (macOS) et MXL-swift (iOS).

L'un des modèles sous-jacents à Hibiki est un transformeur temporel appelé Helium. Kyutai en avait publié une preview il y a quelques semaines, là aussi en open-weight. Il s'agit d'un modèle de base 2B gérant 6 langues (français, anglais, allemand, espagnol, italien, portugais).

De Whisper à MADLAD, plusieurs modèles impliqués dans l'entraînement de Hibiki

La première étape de préentraînement s'est portée sur Helium. Elle s'est faite avec du texte multilingue. Parmi les sources, Common Crawl, peS2o (articles scientifiques), StackExchange et Wikipédia.
La deuxième phase a introduit de l'audio : 7 millions d'heures en anglais et 450 000 en français, en suivant la recette utilisée pour Moshi.

Le reste de Hibiki a ensuite été entraîné à traduire la parole. Ce à partir d'un jeu de données de traduction français-anglais avec environ 40 000 heures pour chaque langue. Pour le constituer, Kyutai a, dans les grandes lignes :

  • Extrait, à partir d'un ensemble de contenus audio en français, environ 2,3 millions d'occurrences monolocuteur, chacune d'environ 60 secondes
  • Transcrit ces segments avec Whisper (large-v3)
  • Utilisé PySBD pour segmenter chaque transcription en phrases
  • Exploité MADLAD-3B pour traduire chaque phrase
  • Réuni ces phrases en une transcription en anglais
  • Synthétisé chaque transcription avec un modèle de synthèse vocale, en respectant l'identité du locuteur d'origine
  • Inséré des silences pour synchroniser les paires

S'ensuit une étape d'ajustement à partir d'environ 900 heures de données plus "naturelles". Mêlant des occurrences longues et une version "améliorée" du dataset CVSS-T, elles sont synthétisées par un modèle text-to-speech entraîné pour (contraintes en matière de localisation des mots et de conservation de l'identité du locuteur).

Hibiki-M passe par le même préentraînement texte puis audio, ainsi que par l'ultime phase d'ajustement. L'entraînement sur la traduction se fait par distillation à partir de Hibiki.

Illustration générée par IA

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page