Automatiser l'évaluation des LLM : un cas pratique chez Spotify

Spotify a exploré diverses options pour automatiser l'évaluation des réponses d'un modèle génératif destiné à l'analyse de factures fournisseurs.

Publié par Clément Bohic le 9 janv. 2025 | mis à jour à 17:51

Lecture
4 min

Imprimer

Combien de LLM faut-il pour en évaluer un autre ?

La question s'est posée chez Spotify dans le cadre d'un projet d'automatisation financière axé sur l'analyse des factures fournisseurs. La diversité des langues, des formats et des structures rendait inadéquats les modèles déterministes. Aussi a-t-il a été décidé de recourir à de la GenAI. Un choix qui a induit, autant pour des raisons pratiques que réglementaires, de pouvoir accorder un niveau de confiance à chaque réponse.

Spotify a exploré l'usage d'un modèle spécifique à cette tâche et pouvant être amélioré après sa mise en prod. Une piste finalement non retenue : les scores, en plus d'être difficiles à interpréter voire parfois contre-intuitifs, n'étaient pas constants d'une exécution à l'autre.

Autre option expérimentée : l'usage des logprobs du modèle chargé d'analyser les factures. C'est-à-dire, dans les grandes lignes, de la probabilité qu'il a de produire différents tokens (un logprob plus élevé traduisant une plus grande confiance). Cette méthode peut parfois manquer de transparence : on ne sait pas toujours comment sont calculées les logprobs. En outre, elle apparaît peu fiable : il ne ressort pas corrélation claire entre le niveau de confiance mesuré pour une réponse (Spotify l'a calculé en faisant la moyenne des logprobs de chaque token) et la précision réelle de cette réponse.

Une autre technique l'a emporté : le vote à la majorité. Elle consiste à choisir la réponse la plus fréquente sur un éventail de modèles et/ou de prompts. Le score de confiance est fonction du taux de modèles en accord. Elle engendre des résultats assez consistants et interprétables, corrélés assez fortement à la précision réelle.

Vote à la majorité : la question du nombre...

Le nombre optimal de modèles pour le vote à la majorité dépend de nombreux paramètres : complexité de la tâche, diversité des LLM, ressources disponibles, etc. Un plus grand échantillon sera généralement plus stable, mais introduira une complexité supplémentaire et consommera davantage de ressources. Une forme de mise en application de la loi des rendements décroissants.

De ses lectures sur le sujet, Spotify a estimé la fenêtre idéale de 4 à 7 modèles. Il s'y est tenu, en en utilisant 5 ou 6 en fonctions des évaluations. Il a implémenté une pondération des votes (le poids des modèles étant basé sur leur précision). Une solution qui donne davantage d'influence aux modèles performants et minimise les chances d'égalité dans le vote. Des poids linéaires ont été préférés aux poids exponentiels pour des raisons d'explicabilité, mais aussi de consistance. Si est ajouté un étalonnage de Platt (technique de calibratoin des outputs probabilistes) pour mieux aligner les scores "bruts" sur la précision réelle.

... et du consensus

Le vote à la majorité se révèle efficace pour les champs numériques et les réponses texte courtes. C'est plus difficile avec des éléments longs comme les adresses et les descriptions d'articles : il est moins probable que les modèles trouvent un consensus. Dans ce contexte, Spotify a exploré deux approches. D'une part, clusteriser les réponses texte en fonction de la proximité de leurs représentations vectorielles (le plus gros cluster correspondant au vote). De l'autre, utiliser un modèle génératif distinct pour trancher le vote. L'une et l'autre ont amélioré les choses, mais aucune n'est passée en production Entre autres de par leur incapacité à détecter des différences orthotypographiques telle celle entre O (o majuscule) et 0 (zéro). En guise de méthode de contournement, les textes longs ont été divisés en fragments. Par exemple, l'adresse en rue, ville, pays et code postal.

Autre écueil du vote à la majorité : un niveau de granularité dépendant du nombre participants. Moins on utilise de modèles, plus chacun a une grande influence sur la décision finale. Avec les applications qui ont besoin d'un haut niveau de confiance, un seul vote divergent peut causer une chute suffisamment importante du score de confiance pour entraîner le rejet d'une réponse. La solution adoptée a consisté à utiliser plusieurs prompts par modèle, augmentant ainsi le nombre de votes et réduisant par là même le poids de chacun. Une technique effiace, mais qui implique des coûts supplémentaires, en temps comme en ressources de calcul, tout en accroissant les chances d'échec.

Illustration générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Automatiser l'évaluation des LLM : un cas pratique chez Spotify

Vote à la majorité : la question du nombre...

... et du consensus

Déployer l'IA à l'échelle : l'approche d'AXA, entre vision et [...]

Chez Eiffage, l'IA générative au service des métiers

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

S’abonner

Briser les barrières de la sécurité en entreprise

Symphony 25 : Sécuriser du code au cloud jusqu'au SOC [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Vote à la majorité : la question du nombre...

... et du consensus

S’abonner

Partager l'épisode