Qu'est-ce que le projet EuroLLM, qui a publié son premier modèle ?

EuroLLM arrive à mi-parcours. Comment s'inscrit-il dans le paysage des projets financés par le programme Horizon Europe ?

Publié par Clément Bohic le 15 oct. 2024 | mis à jour à 12:14

Lecture
6 min

Imprimer

Lors de l'entraînement de modèles multilingues, quelle importance accorder aux données dites parallèles (associant un élément et sa traduction) ?

Un article scientifique publié fin septembre propose une réponse fondée sur une loi de puissance appliquée - dans les grandes lignes - au nombre de paramètres ne contenant pas de représentations vectorielles.

Ledit article rend compte du développement d'un modèle et de sa version Instruct dans le cadre du projet EuroLLM.

EuroLLM et UTTER, l'un dans l'autre

EuroLLM doit s'échelonner du 1^er mai 2024 au 30 avril 2025. Il est censé en résulter des LLM d'échelle 1B, 9B et 22B pouvant traiter et produire du texte dans les 24 langues officielles de l'UE, ainsi qu'une dizaine d'autres (arabe, catalan, chinois, coréen, galicien, hindi, japonais, norvégien, russe, turc, ukrainien).

EuroLLM implique officiellement 9 entités. Dans l'ordre alphabétique :

Aveni (entreprise privée écossaise à l'origine d'une plate-forme de traitement IA des enregistrements audio sous l'angle conformité)
CentraleSupélec
L'Instituto Superior Técnico (école d'ingés à Lisbonne)
L'Instituto de Sistemas e Robótica (également basé à Lisbonne)
Instituto de Telecomunicações (groupement portugais réunissant des universités, un institut polytechnique, un équipementier télécoms et un opérateur télécoms public)
NAVER LABS (filiale R&D de l'entreprise sud-coréenne NAVER)
Unbabel (entreprise privée portugaise fournissant des services de traduction)
L'université d'Amsterdam
L'université d'Édimbourg

La forte représentation du Portugal traduit le soutien financier que le pays a apporté dans le cadre de son plan de relance. Une partie de l'enveloppe du projet DECOLLAGE (DEep COgnition Learning for LAnguage GEneration, que portent Unlabel et Instituto de Telecomunicações) a par ailleurs été fléchée vers EuroLLM. Lequel bénéficie aussi des fonds du programme Horizon Europe à travers son projet de tutelle : UTTER (Unified Transcription and Translation for Extended Reality).

L'université d'Amsterdam chapeaute cette initiative à 4 M€ dont sont aussi parties prenantes, entre autres, son homologue d'Édimbourg, NAVER LABS et Unbabel. Objectif, sur le papier : développer, en trois ans (fin le 30 septembre 2025) et avec une quinzaine d'ETP, la "prochaine génération de technologies XR multimodales [capables de gérer texte et voix, NDLR]". Dans la pratique, les premiers livrables prototypes consistent en des assistants combinant transcription et traduction pour les réunions et le support client.

HPLT, autre initiative liée à EuroLLM

EuroLLM a aussi des liens avec Tower LLM. Sous cette bannière, quatre de ses membres (dont CentraleSupélec) ont proposé une recette pour adapter des LLM aux multiples tâches dont se composent les workflows de traduction.

Des liens, il en existe également avec HPLT (High Performance Language Technologies). Cet autre projet Horizon Europe, d'une durée de 3 ans, fédère essentiellement la sphère académique. Sa principale visée : collecter et préparer de grands volumes de données pour la formation de modèles de langage en Europe. Il travaille notamment sur des contenus issus des bases Common Crawl (5 Po) et Internet Archive (7 Po). Il s'agira aussi de former "des centaines, voire des milliers" de modèles.

Comment EuroLLM a produit son premier modèle

Les premiers fruits d'EuroLLM sont un transformeur 1.7B et sa version Instruct, publiés sous licence Apache 2.0.

Une multitude de sources de données ont été mises à contribution pour l'entraînement :

Données issues du web
Pour l'anglais, extraction d'éléments du dataset FineWeb-edu.
Pour l'allemand, l'espagnol, le français et l'italien,extraction depuis RedPajama-Data-v2.
Pour les autres langues, utilisation de HPLT, MADLAD-400, CulturaX et mC4.
Données parallèles
Exploitation de "diverses sources publiques". Anglais systématiquement en langue de départ ou d'arrivée.
Code et mathématiques
Collecte depuis The Stack, AlgebraicStack et Open-web-math.
Données "haute qualité"
Pour toutes les langues, Wikipédia. Pour l'anglais, arXiv, Books et Apollo.

L'entraînement s'est fait sur 4000 milliards de tokens, par lots d'environ 12 millions, à l'appui de 256 GPU NVIDIA H100 sur le supercalculateur Marenostrum 5 d'EuroHPC. Sur la fin du processus (les 10 derniers %), EuroLLM a augmenté la proportion de données de haute qualité et en a ajouté pour l'occasion. Ses sources :

Cosmopedia-v2 (données synthétiques générées par Mixtral-8x7B-Instruct-v0.1)
Python-Edu (sous-ensemble de The Stack)
GSM8K et MATH
Europarl et ParaDocs pour la collecte de données parallèles

Les données parallèles ont représenté 20 % du corpus final. EuroLLM a testé jusqu'à 37,5 %, mais une telle proportion dégradait les performances. Au contraire, la répétition des données de haute qualité a eu tendance à améliorer le modèle.

Sur l'essentiel de la phase d'entraînement (les 90 premiers %), l'anglais a représenté 50 % du dataset. Le code et les maths, 5 %. Le reste fut réparti entre les autres langues en fonction de la quantité de données obtenues. Sur la fin du processus, la part de l'anglais fut réduite à 32,5 % et celle des données de code/maths, portée à 7 %.

Pour former le modèle au suivi d'instructions, EuroLLM a pratiqué l'apprentissage supervisé sur un dataset maison associant données publiques et données synthétiques. Sources : OpenHermes-2.5 et Aya, ainsi que des traductions machine (NTREX-128, FLORES-200-DEV, WMT-21, WMT-22).

Sur les quelques benchmarks pour lesquels il publie des résultats (Hellaswag et Arc Challenge notamment), EuroLLM compare les performances de son modèle à celles de Gemma (2B et 7B) et TinyLlama.

Illustration principale © Eisenhans - Adobe Stock

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Qu'est-ce que le projet EuroLLM, qui a publié son premier modèle ?

EuroLLM et UTTER, l'un dans l'autre

HPLT, autre initiative liée à EuroLLM

Comment EuroLLM a produit son premier modèle

Databricks viserait Neon : vers une autre acquisition OLTP [...]

Trois cas d'usage de l'IA à la Cour de cassation

Chatbot Arena : la remise en cause d'un benchmark IA référent

Process mining : l'automatisation est de moins en moins une option

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

EuroLLM et UTTER, l'un dans l'autre

HPLT, autre initiative liée à EuroLLM

Comment EuroLLM a produit son premier modèle

S’abonner

Partager l'épisode