Pour gérer vos consentements :

Le raisonnement inductif, capacité sous-estimée des LLM ?

Publié par Clément Bohic le - mis à jour à

Des chercheurs proposent un framework qu’ils disent à même de saisir les véritables capacités de raisonnement inductif (généralisation à partir d’exemples) des LLM.

Les LLM, meilleurs qu'il n'y paraît en matière de raisonnement inductif ? Tout dépend comment on les évalue...

C'est le sujet d'un article qu'ont signé une douzaine de chercheurs d'Amazon. Ils y présentent leur propre framework : SolverLearner. Sa promesse : une évaluation d'autant plus précise qu'elle induit une séparation claire vis-à-vis du raisonnement déductif. Pour cela, on dissocie l'apprentissage des fonctions (qui transforment un input x en un output y) et leur mise en application. La première partie correspond à l'inductif. La deuxième, au déductif. Elle repose sur des interpréteurs de code externes. Une solution censée éviter une tendance qui se manifeste avec les méthodes passant directement d'observations à des instances spécifiques : le« masquage » des étapes de raisonnement inductif. Avec, en conséquence, le risque d'attribuer les sous-performances inductives aux capacités déductives (= d'exécution de tâches).

Pour favoriser la comparaison des deux types de raisonnements, les chercheurs ont défini un ensemble d'expériences utilisant chacune une tâche reproduite dans différents contextes, orientés déductif ou inductif. Pour éviter de confronter les LLM à des tâches qu'ils ont déjà rencontrées à l'entraînement, l'étude a privilégié les raisonnements contrefactuels. On choisit en outre des tâches auxquelles une seule fonction peut se prêter.

Des LLM évalués sur des tâches non conventionnelles

Sur le volet arithmétique, on est sur un problème d'addition de nombre à deux chiffres sur les bases 8, 9, 10, 11 et 16. En mode déductif, le LLM connaît la base et doit réaliser les additions. En inductif, il doit trouver la base à partir d'exemples.

Un autre test couvre le raisonnement syntaxique. Il consiste à construire, en anglais, des phrases de 3 mots au format sujet-verbe-complément, puis à en générer 5 variations ne respectant pas cet ordre. En déductif, le modèle connaît la règle d'ordonnancement et doit trouver sujet, verbe et complément. En inductif, on lui donne des paires (une sujet-verbe-complément, l'autre modifiée). Il doit alors apprendre la règle d'ordonnancement et l'appliquer sur de nouvelles phrases.

Le benchmark inclut aussi un test de raisonnement spatial. Il se fonde sur 100 pièces aléatoires contenant chacune 3 objets. Leurs coordonnées sont représentées par des vecteurs unitaires : nord = (0, 1), sud = (0, -1), est = (1, 0), ouest = (-1, 0). On modifie ces associations selon plusieurs scénarios. En déductif, le modèle doit calculer les coordonnées à partir du mapping. En inductif, il doit comprendre les changements de mapping à partir d'exemples.

Dernier test : le déchiffrement de message, avec plusieurs méthodes dont le Morse et le code de César (chiffrement par décalage). En déductif, on fournit la méthode et le LLM doit décoder les messages. En inductif, il doit identifier la méthode à partir de paires de chaînes (chiffré, déchiffré).

Claude et GPT, bons généralisateurs... avec le bon framework ?

Pour la partie déductive, deux scénarios d'évaluation : en direct (0-shot) ou en fournissant des exemples en plus de la fonction (8-IO). Même chose pour l'inductif : 8-IO sans fonction et SolverLearner 8-shot (ou 16-shot).

L'étude fournit des résultats pour trois modèles : GPT-3.5 (gpt-3.5-turbo-1106), GPT-4 (gpt-4-1106-preview) et Claude 3 Sonnet (claude-3-sonnet-20240229-v1:0). Il en ressort des capacités jugées faibles en déductif, surtout sur le contrefactuel. Intégrer des exemples - donc faire jouer le raisonnement déductif - améliore les performances.
Avec SolverLeaner, GPT-4 atteint systématiquement un score parfait. GPT-3.5 le fait sur la plupart des tâches.

Illustration principale générée par IA

La rédaction vous recommande