Spécialisation des LLM : LoRA, une forme d'illusion ?

Des chercheurs ont examiné les différences structurelles entre les modèles résultant d'un surentraînement classique et ceux affinés avec la méthode LoRA.

Publié par Clément Bohic le 15 nov. 2024 | mis à jour à 11:00

Lecture
3 min

Imprimer

Gare aux fausses apparences avec LoRA ?

Cette méthode de surentraînement des modèles d'IA ne modifie pas la matrice de poids d'origine. Elle en estime les paramètres en la décomposant en deux matrices plus petites, dites de rang inférieur (le rang correspondant à leur dimension).

Des "dimensions intruses" dans les modèles LoRA

Si LoRA (Low-Rank Adaptation) peut produire des performances équivalentes à du fine-tuning complet, ce qu'apprennent les modèles est-il vraiment comparable ? Des chercheurs du MIT se sont penchés sur cette question. En toile de fond, divers travaux ayant montré, entre autres, des différences dans la capacité de l'une et l'autre méthode à modifier l'angle et la magnitude avec lesquels un neurone transforme un input. Mais aussi la difficulté des modèles LoRA à atteindre la performance des modèles FFT (full fine-tuning) des sur des tâches complexes comme la génération de code et de texte long.

Les chercheurs se sont intéressés aux propriétés spectrales des matrices de poids. Dans ce cadre, ils ont notamment affiné RoBERTa-base sur 6 tâches de classification. À niveau de performance équivalent, les modèles LoRA et FFT présentent des différences importantes. Elles sont dues à la présence de "dimensions intruses". En d'autres termes, de vecteurs singuliers dont la similarité cosinus vis-à-vis de ceux de la matrice de poids d'origine est faible (plus précisément inférieure à un certain seuil). Ils leur sont en l'occurrence approximativement orthogonaux.

Des modèles plus oublieux

L'existence de ces dimensions intruses est corrélée à une plus grande tendance à l'oubli. À la fois vis-à-vis de la distribution d'origine et lors de l'entraînement continu* (affinement sur plusieurs tâches à la suite). On constate qu'elles existent à travers toute la matrice, qu'elles augmentent proportionnellement à la taille du dataset de surentraînement et que leur direction comme leur magnitude changent à mesure qu'avance le processus.

Toujours à performance équivalente, les modèles LoRA et FFT ont des comportements de généralisation différents hors de la tâche cible. Plus on augmente le rang, plus cette différence s'estompe. Tout comme, d'ailleurs, l'occurrence de dimensions intruses. La distribution des rangs optimaux en regard de chacune des tâches aval (= adaptation maximale + oubli minimal) suit une courbe en U.

* La procédure d'entraînement continu a impliqué six phases sur autant de datasets : MNLI, QQP, SST-2, SIQA, Winogrande, puis FEVER. Après chaque phase, les chercheurs ont fusionné les poids LoRA, puis les ont réinitialisés avant de lancer la phase suivante. Après chacune, ils ont testé le modèle sur toutes les tâches en réentraînant séparément les têtes de classification.

Illustration principale générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Spécialisation des LLM : LoRA, une forme d'illusion ?

Des "dimensions intruses" dans les modèles LoRA

Des modèles plus oublieux

Les insuffisances de Sesam, SI métier de la DGCCRF

Qu'est-ce que le protocole MCP, qui monte dans l'univers de [...]

Quelle infrastructure on-premise pour porter une stratégie IA ?

La CNIL face aux limites du chiffrement homomorphe

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

S’abonner

Cybersécurité et digitalisation Comment protéger les [...]

Leader des services de réponse à incident de cybersécurité

Comment optimiser la consommation énergétique d’un [...]

Comment l'IA améliore la qualité de vos réunions ?

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Des "dimensions intruses" dans les modèles LoRA

Des modèles plus oublieux

S’abonner

Partager l'épisode