Les LLM souverains, une question de tokenisation ?

Aleph Alpha propose une architecture de tokenizer "hybride" favorisant l'adaptation de LLM à davantage de langues et de domaines de compétences.

Publié par Clément Bohic le 30 janv. 2025 | Mis à jour le 31 janv. 2025 à 16:21

Lecture
2 min

Imprimer

Pour des LLM plus souverains, changeons les tokenizers ?

Aleph Alpha a choisi cet angle pour faire état de ses travaux en la matière. L'entreprise allemande propose un mécanisme mêlant des traitements au niveau des mots et des caractères. Elle le pose en alternative à l'approche dominante fondée sur la tokenisation par fragments.

Cette dernière en est venue à constituer un compromis. Promesse : préserver les bénéfices liés aussi bien à la tokenisation au niveau des caractères (tailles de vocabulaires limitées) qu'au niveau des mots (séquences courtes).

Une telle approche présente toutefois des inconvénients :

Proportionnalité entre la taille du vocabulaire et celle des matrices impliquées
Mauvaise gestion des variations dans les inputs (des éléments sémantiquement proches mais épelés différemment peuvent produire des séquences très différentes)
Tokenizer non inclus dans le processus d'apprentissage de bout en bout (il est intégré en tant qu'étape séparée), ce qui complique l'adaptation des modèles à d'autres langues ou domaines de compétence

Le système que propose Aleph Alpha divise les mots en se basant sur les espaces Unicode. Pour chaque mot, les caractères (octets UTF-8) sont vectorisés individuellement. Puis sont transmis à un encodeur qui reconstitue un embedding du mot. La séquence d'embeddings est traitée par un modèle plus gros ("backbone"). Ses outputs - dits embeddings prédictifs - sont convertis par un décodeur qui prédit les caractères suivants.

Aleph Alpha

Favoriser le multilinguisme

Cette architecture conserve les bénéfices que la tokenisation au niveau des mots apporte en matière de compression. Et elle ne dépend pas d'un vocabulaire rigide. Les modules de traitement au niveau des caractères sont relativement légers (moins de paramètres que les tokenizers classiques) et le système peut être entraîné de bout en bout.

Jusqu'à une échelle de 7B, les modèles ainsi dotés rivalisent avec ceux utilisant des tokenizers classiques, assure Aleph Alpha. Ils résistent par ailleurs mieux aux variations des inputs (testé sur la permutation, la randomisation et la suppression de caractères). En outre, leur entraînement sur une nouvelle langue se révèle plus rapide.

Si elle est efficace pour les langues à alphabet, la division Unicode ne fonctionne pas avec des langues logographiques comme le chinois, où chaque caractère représente un mot (ou, plus précisément, un morphème). L'architecture proposée permet toutefois d'intégrer d'autres règles.

Illustration principale générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Les LLM souverains, une question de tokenisation ?

Favoriser le multilinguisme

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

{ Tribune Expert } - La voie vers une véritable IA open source

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Cybersécurité et digitalisation Comment protéger les [...]

Leader des services de réponse à incident de cybersécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Favoriser le multilinguisme

S’abonner

Partager l'épisode