Recherche

Les LLM souverains, une question de tokenisation ?

Aleph Alpha propose une architecture de tokenizer "hybride" favorisant l'adaptation de LLM à davantage de langues et de domaines de compétences.

Publié par Clément Bohic le | Mis à jour le
Lecture
2 min
  • Imprimer
Les LLM souverains, une question de tokenisation ?
© généré par IA

Pour des LLM plus souverains, changeons les tokenizers ?

Aleph Alpha a choisi cet angle pour faire état de ses travaux en la matière. L'entreprise allemande propose un mécanisme mêlant des traitements au niveau des mots et des caractères. Elle le pose en alternative à l'approche dominante fondée sur la tokenisation par fragments.

Cette dernière en est venue à constituer un compromis. Promesse : préserver les bénéfices liés aussi bien à la tokenisation au niveau des caractères (tailles de vocabulaires limitées) qu'au niveau des mots (séquences courtes).

Une telle approche présente toutefois des inconvénients :

  • Proportionnalité entre la taille du vocabulaire et celle des matrices impliquées
  • Mauvaise gestion des variations dans les inputs (des éléments sémantiquement proches mais épelés différemment peuvent produire des séquences très différentes)
  • Tokenizer non inclus dans le processus d'apprentissage de bout en bout (il est intégré en tant qu'étape séparée), ce qui complique l'adaptation des modèles à d'autres langues ou domaines de compétence

Le système que propose Aleph Alpha divise les mots en se basant sur les espaces Unicode. Pour chaque mot, les caractères (octets UTF-8) sont vectorisés individuellement. Puis sont transmis à un encodeur qui reconstitue un embedding du mot. La séquence d'embeddings est traitée par un modèle plus gros ("backbone"). Ses outputs - dits embeddings prédictifs - sont convertis par un décodeur qui prédit les caractères suivants.

Aleph Alpha


Favoriser le multilinguisme

Cette architecture conserve les bénéfices que la tokenisation au niveau des mots apporte en matière de compression. Et elle ne dépend pas d'un vocabulaire rigide. Les modules de traitement au niveau des caractères sont relativement légers (moins de paramètres que les tokenizers classiques) et le système peut être entraîné de bout en bout.

Jusqu'à une échelle de 7B, les modèles ainsi dotés rivalisent avec ceux utilisant des tokenizers classiques, assure Aleph Alpha. Ils résistent par ailleurs mieux aux variations des inputs (testé sur la permutation, la randomisation et la suppression de caractères). En outre, leur entraînement sur une nouvelle langue se révèle plus rapide.

Si elle est efficace pour les langues à alphabet, la division Unicode ne fonctionne pas avec des langues logographiques comme le chinois, où chaque caractère représente un mot (ou, plus précisément, un morphème). L'architecture proposée permet toutefois d'intégrer d'autres règles.

Illustration principale générée par IA

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #cloud

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page