Comment Younited a appliqué la GenAI au crédit conso

Younited IA générative

Younited a utilisé PaLM 2 puis Gemini pour catégoriser des transactions bancaires en vue de l’analyse de risque pour l’octroi de prêts personnels. Retour d’expérience.

Les transactions bancaires, un « langage à part entière » ? Florian Nicolaï, data scientist chez Younited, s’exprime en ces termes.

La fintech européenne emploie 550 personnes et revendique 1,2 million de clients. Outre un conseiller budgétaire, de l’assurance affinitaire et des crédits amortissables, elle propose des prêts personnels. Pour automatiser les décisions d’octroi, elle a exploré l’IA générative, l’appliquant à la catégorisation desdites transactions (collectées auprès des demandeurs par l’open banking) en vue de l’analyse de risque.

Ce processus de catégorisation se fait à deux niveaux. On prédit d’abord une catégorie principale (parmi 18). Ensuite une sous-catégorie (parmi 160). On ne passe à la deuxième étape que lorsque la précision est suffisante sur la première.

7 semaines pour gagner 6 mois

Pour entraîner un tel modèle de classification, il faut un minimum de 10 millions d’annotations par pays. Effectuée à la main, la tâche prend un an avec une équipe à temps plein de trois personnes minimum, selon Romain Mazoué.

Le directeur des risques et de la data de Younited affirme que le recours à la GenAI a permis de réduire de moitié le coût ou le temps nécessaire. Le projet s’est étendu sur 7 semaines. Il a impliqué Florian Nicolaï et un ingénieur Google Cloud à temps plein.

Il a fallu composer avec la présence potentielle de fautes et de données personnelles dans les libellés. Mais aussi avec leur variété : pour 2 milliards de transactions en base, 500 millions de libellés distincts… et 120 000 mots uniques, d’où l’expression « langage à part entière ».

Au-delà des contraintes réglementaires imposant des niveaux de précision très élevés, Younited a dû transmettre au LLM une connaissance métier. Des transactions en apparence similaires pouvaient effectivement être foncièrement différentes. Florian Nicolaï donne l’exemple du sigle « BNP » se référant généralement à des dépenses bancaires tandis que « BNP PF » aura trait à des mensualités de crédit (BNP Personal Finance).

De PaLM 2 à Gemini, la méthode pour arriver à 52 % de précision

Younited s’est intéressé à deux méthodes. D’une part, l’ingénierie d’invite (prompt designing). De l’autre, le fine-tuning avec adaptateur (on ne réentraîne qu’une partie du modèle en « gelant » le reste). Vu le niveau de complexité du problème et la quantité de données disponibles, RLHF (apprentissage continu avec feedback humain) et fine-tuning complet ont semblé démesurés.

Florian Nicolaï – Data Scientist au sein de Younited © DR

Les premières expérimentations se sont fondées sur PaLM 2.
Le taux de précision a atteint 12 % en présentant simplement les transactions au modèle et en lui demandant d’essayer des les classer (en précisant les catégories autorisées).
En injectant, dans les prompts, des descriptions de catégories (générées par le LLM), on passe à 29 %.
Le few-shot prompting (injection d’exemples) a eu un effet régressif (24 % de précision). Younited l’interprète comme du surapprentissage : le modèle n’arrivait plus à se prononcer en dehors des exemples fournis.
Avec les mêmes exemples mais en fine-tuning (2 heures, quelques centaines d’euros), PaLM 2 a atteint 35 % de précision.

Younited a ensuite basculé sur Gemini 1.0. En reprenant le prompt optimisé (sans affinage ni injection d’exemples), la précision s’est maintenue à 30 %. Avec fine-tuning, on en est arrivé à 52 % (37 % pour les catégories principales ; 67 % pour les sous-catégories). D’où l’affirmation d’une division par deux du temps/coût par rapport à l’annotation humaine.

Younited explore la piste du multilinguisme

Le polyglottisme de Gemini lui permet, dans une certaine mesure, de répliquer sur un pays ce qu’il a appris sur un autre. Entraîné en allemand et testé sur des données françaises, il maintient un taux de précision « entre 30 et 40 % », nous assure-t-on.

Ce cas d’usage en ouvre d’autres, dont le contrôle des modèles d’IA en production via des challenger models basés sur la GenAI. Ou l’évaluation de la qualité des annotations humaines pour les bases d’entraînement.

Florian Nicolaï le reconnaît : sur certains sujets, les modèles classiques restent plus performants. Il mentionne les glossaires et l’extraction de données à partir d’images.

Quant à sortir des modèles GenAI exposés aux clients, Younited considère ne pas être encore assez mature.

Illustration © Younited