Comment Younited a appliqué la GenAI au crédit conso

Younited a utilisé PaLM 2 puis Gemini pour catégoriser des transactions bancaires en vue de l’analyse de risque pour l’octroi de prêts personnels. Retour d’expérience.

Publié par Clément Bohic le 17 mai 2024 | mis à jour à 18:24

Lecture
4 min

Imprimer

Les transactions bancaires, un « langage à part entière » ? Florian Nicolaï, data scientist chez Younited, s’exprime en ces termes.

La fintech européenne emploie 550 personnes et revendique 1,2 million de clients. Outre un conseiller budgétaire, de l’assurance affinitaire et des crédits amortissables, elle propose des prêts personnels. Pour automatiser les décisions d’octroi, elle a exploré l’IA générative, l’appliquant à la catégorisation desdites transactions (collectées auprès des demandeurs par l’open banking) en vue de l’analyse de risque.

Ce processus de catégorisation se fait à deux niveaux. On prédit d’abord une catégorie principale (parmi 18). Ensuite une sous-catégorie (parmi 160). On ne passe à la deuxième étape que lorsque la précision est suffisante sur la première.

7 semaines pour gagner 6 mois

Pour entraîner un tel modèle de classification, il faut un minimum de 10 millions d’annotations par pays. Effectuée à la main, la tâche prend un an avec une équipe à temps plein de trois personnes minimum, selon Romain Mazoué.

Le directeur des risques et de la data de Younited affirme que le recours à la GenAI a permis de réduire de moitié le coût ou le temps nécessaire. Le projet s’est étendu sur 7 semaines. Il a impliqué Florian Nicolaï et un ingénieur Google Cloud à temps plein.

Il a fallu composer avec la présence potentielle de fautes et de données personnelles dans les libellés. Mais aussi avec leur variété : pour 2 milliards de transactions en base, 500 millions de libellés distincts… et 120 000 mots uniques, d’où l’expression « langage à part entière ».

Au-delà des contraintes réglementaires imposant des niveaux de précision très élevés, Younited a dû transmettre au LLM une connaissance métier. Des transactions en apparence similaires pouvaient effectivement être foncièrement différentes. Florian Nicolaï donne l’exemple du sigle « BNP » se référant généralement à des dépenses bancaires tandis que « BNP PF » aura trait à des mensualités de crédit (BNP Personal Finance).

De PaLM 2 à Gemini, la méthode pour arriver à 52 % de précision

Younited s’est intéressé à deux méthodes. D’une part, l’ingénierie d’invite (prompt designing). De l’autre, le fine-tuning avec adaptateur (on ne réentraîne qu’une partie du modèle en « gelant » le reste). Vu le niveau de complexité du problème et la quantité de données disponibles, RLHF (apprentissage continu avec feedback humain) et fine-tuning complet ont semblé démesurés.

Florian Nicolaï – Data Scientist au sein de Younited © DR

Les premières expérimentations se sont fondées sur PaLM 2.
Le taux de précision a atteint 12 % en présentant simplement les transactions au modèle et en lui demandant d’essayer des les classer (en précisant les catégories autorisées).
En injectant, dans les prompts, des descriptions de catégories (générées par le LLM), on passe à 29 %.
Le few-shot prompting (injection d’exemples) a eu un effet régressif (24 % de précision). Younited l’interprète comme du surapprentissage : le modèle n’arrivait plus à se prononcer en dehors des exemples fournis.
Avec les mêmes exemples mais en fine-tuning (2 heures, quelques centaines d’euros), PaLM 2 a atteint 35 % de précision.

Younited a ensuite basculé sur Gemini 1.0. En reprenant le prompt optimisé (sans affinage ni injection d’exemples), la précision s’est maintenue à 30 %. Avec fine-tuning, on en est arrivé à 52 % (37 % pour les catégories principales ; 67 % pour les sous-catégories). D’où l’affirmation d’une division par deux du temps/coût par rapport à l’annotation humaine.

Younited explore la piste du multilinguisme

Le polyglottisme de Gemini lui permet, dans une certaine mesure, de répliquer sur un pays ce qu’il a appris sur un autre. Entraîné en allemand et testé sur des données françaises, il maintient un taux de précision « entre 30 et 40 % », nous assure-t-on.

Ce cas d’usage en ouvre d’autres, dont le contrôle des modèles d’IA en production via des challenger models basés sur la GenAI. Ou l’évaluation de la qualité des annotations humaines pour les bases d’entraînement.

Florian Nicolaï le reconnaît : sur certains sujets, les modèles classiques restent plus performants. Il mentionne les glossaires et l’extraction de données à partir d’images.

Quant à sortir des modèles GenAI exposés aux clients, Younited considère ne pas être encore assez mature.

Illustration © Younited

Publié par :
Clément Bohic

Tags associés :

#GOOGLE CLOUD

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Comment Younited a appliqué la GenAI au crédit conso

7 semaines pour gagner 6 mois

De PaLM 2 à Gemini, la méthode pour arriver à 52 % de précision

Younited explore la piste du multilinguisme

Les insuffisances de Sesam, SI métier de la DGCCRF

Qu'est-ce que le protocole MCP, qui monte dans l'univers de [...]

Quelle infrastructure on-premise pour porter une stratégie IA ?

La CNIL face aux limites du chiffrement homomorphe

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

S’abonner

Les enjeux de la supervision du système d’information !

La Threat Intelligence : quand, quoi et comment ?

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

7 semaines pour gagner 6 mois

De PaLM 2 à Gemini, la méthode pour arriver à 52 % de précision

Younited explore la piste du multilinguisme

S’abonner

Partager l'épisode