Spécialisation des LLM : LoRA, une forme d'illusion ?
Des chercheurs ont examiné les différences structurelles entre les modèles résultant d'un surentraînement classique et ceux affinés avec la méthode LoRA.
Gare aux fausses apparences avec LoRA ?
Cette méthode de surentraînement des modèles d'IA ne modifie pas la matrice de poids d'origine. Elle en estime les paramètres en la décomposant en deux matrices plus petites, dites de rang inférieur (le rang correspondant à leur dimension).
Des "dimensions intruses" dans les modèles LoRA
Si LoRA (Low-Rank Adaptation) peut produire des performances équivalentes à du fine-tuning complet, ce qu'apprennent les modèles est-il vraiment comparable ? Des chercheurs du MIT se sont penchés sur cette question. En toile de fond, divers travaux ayant montré, entre autres, des différences dans la capacité de l'une et l'autre méthode à modifier l'angle et la magnitude avec lesquels un neurone transforme un input. Mais aussi la difficulté des modèles LoRA à atteindre la performance des modèles FFT (full fine-tuning) des sur des tâches complexes comme la génération de code et de texte long.
Les chercheurs se sont intéressés aux propriétés spectrales des matrices de poids. Dans ce cadre, ils ont notamment affiné RoBERTa-base sur 6 tâches de classification. À niveau de performance équivalent, les modèles LoRA et FFT présentent des différences importantes. Elles sont dues à la présence de "dimensions intruses". En d'autres termes, de vecteurs singuliers dont la similarité cosinus vis-à-vis de ceux de la matrice de poids d'origine est faible (plus précisément inférieure à un certain seuil). Ils leur sont en l'occurrence approximativement orthogonaux.
Des modèles plus oublieux
L'existence de ces dimensions intruses est corrélée à une plus grande tendance à l'oubli. À la fois vis-à-vis de la distribution d'origine et lors de l'entraînement continu* (affinement sur plusieurs tâches à la suite). On constate qu'elles existent à travers toute la matrice, qu'elles augmentent proportionnellement à la taille du dataset de surentraînement et que leur direction comme leur magnitude changent à mesure qu'avance le processus.
Toujours à performance équivalente, les modèles LoRA et FFT ont des comportements de généralisation différents hors de la tâche cible. Plus on augmente le rang, plus cette différence s'estompe. Tout comme, d'ailleurs, l'occurrence de dimensions intruses. La distribution des rangs optimaux en regard de chacune des tâches aval (= adaptation maximale + oubli minimal) suit une courbe en U.
* La procédure d'entraînement continu a impliqué six phases sur autant de datasets : MNLI, QQP, SST-2, SIQA, Winogrande, puis FEVER. Après chaque phase, les chercheurs ont fusionné les poids LoRA, puis les ont réinitialisés avant de lancer la phase suivante. Après chacune, ils ont testé le modèle sur toutes les tâches en réentraînant séparément les têtes de classification.
Illustration principale générée par IA
Sur le même thème
Voir tous les articles Data & IA