ModernBERT, mais pas que : tendance RAG chez LightOn

À intervalle de quelques semaines, LightOn a présenté deux LLM - des déclinaisons de BERT et de Qwen2 - destinés notamment à alimenter les pipelines RAG.

Publié par Clément Bohic le 8 janv. 2025 | mis à jour à 11:54

Lecture
3 min

Imprimer

LightOn, à fond sur le RAG ?

Quelques semaines avant son IPO, l'entreprise française avait communiqué une avancée en la matière. Son nom : MonoQwen-2-VL. Sa nature : un modèle encodeur destiné au reranking - donc, entre autres, à assister la récupération de documents. Il s'agit d'une version LoRA de Qwen2-VL-2B-Instruct, entraînée sur MonoT5 (le modèle répond "vrai" si un document est pertinent vis-à-vis d'une requête ; "faux" sinon).

MonoQwen-2-VL est censé accompagner le développement des pipelines RAG "visuels". En d'autres termes, qui se passent de représentation textuelle... et qui évitent ainsi potentiellement la perte d'informations. Les méthodes ColPali et DSE (Document Screenshot Embeddings) s'inscrivent dans cette tendance. L'une et l'autre utilisent, pour le reranking, une version LoRA du LLM destiné aux tâches de génération. Une option qu'a également choisie LightOn.

ModernBERT, une autre contribution pour le RAG

Une deuxième annonce couleur RAG est intervenue vers la mi-décembre. LightOn a présenté ModernBERT. Il s'agit d'une version affinée de BERT (modèle encodeur de référence, utilisé entre autres pour la récupération de documents). La fenêtre de contexte a été nettement étendue (8k) et l'entraînement a fait la part belle au code, ouvrant la voie à des usages au sein des IDE.

ModernBERT s'inspire de l'approche Transformer++, que Meta avait introduite avec les modèles LLaMA 2. LightOn a ainsi remplacé un certain nombre de briques de BERT par des équivalents "modernes". En particulier, sur l'encodage positionnel (intégration du RoPE) et la fonction d'activation (GeGLU à la place de MLP). Il a aussi ajouté une couche de normalisation après embedding, afin de stabiliser l'entraînement.

ModernBERT tire également parti de la deuxième génération de l'attention flash. Il mêle ainsi attention "globale" et attention "locale" : l'input complet n'est traité que toutes les trois couches. Les autres utilisent une fenêtre glissante où chaque token ne "surveille" que les 128 plus proches.
Une autre amélioration réduisant l'usage de ressources de calcul concerne la technique dite de padding. Celle-ci consiste à repérer la phrase la plus longue dans une séquence, puis à compléter les autres avec des tokens insignifiants afin qu'elle aient toutes la même longueur. Une condition indispensable pour les traiter en lot. Avec ModernBERT, on effectue une suppression de ces tokens suivie d'une concaténation en mini-batchs... et - élément spécifique à l'implémentation de LightOn - on n'effectue ce processus qu'une fois plutôt qu'à la volée. Une approche rendue possible, en particulier, par la prise en charge de RoPE dans le mécanisme d'attention flash.

Avant MonoQwen-2-VL et ModernBERT, une implémentation maison de Mamba

En amont, LightOn avait notamment expérimenté l'architecture Mamba, alternative à Transformers. Il en a résulté un LLM nommé Mambaoutai.

L'implémentation d'origine a été modifiée sur plusieurs aspects. Il a par exemple été décidé d'utiliser un plus grand état caché (permettant au modèle de compresser davantage de contexte) et de ne pas lier la matrice d'embedding à la dernière couche de progression (une question de simplicité).

LightOn a par ailleurs opté pour le planificateur WSD (Warmup-Stable-Decay). Avec lui, le taux d'apprentissage ne suit pas une fonction cosinus. En conséquence, la performance n'est pas, dans les grandes lignes, tributaire de la définition préalable du nombre d'étapes. Une contrainte en moins, donc, si on souhaite surentraîner le modèle.

Autre choix : pondérer le poids de la perte sur les premiers tokens des séquences. Une façon, estime LightOn, de diminuer le bruit dans les signaux d'apprentissage, du fait qu'il est plus difficile pour un modèle décodeur de prédire ces premiers tokens.

Illustration générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

ModernBERT, mais pas que : tendance RAG chez LightOn

ModernBERT, une autre contribution pour le RAG

Avant MonoQwen-2-VL et ModernBERT, une implémentation maison de Mamba

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Cybersécurité et digitalisation Comment protéger les [...]

Leader des services de réponse à incident de cybersécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

ModernBERT, une autre contribution pour le RAG

Avant MonoQwen-2-VL et ModernBERT, une implémentation maison de Mamba

S’abonner

Partager l'épisode