Pour gérer vos consentements :

Categories: ChatGPT

Le raisonnement inductif, capacité sous-estimée des LLM ?

Les LLM, meilleurs qu’il n’y paraît en matière de raisonnement inductif ? Tout dépend comment on les évalue…

C’est le sujet d’un article qu’ont signé une douzaine de chercheurs d’Amazon. Ils y présentent leur propre framework : SolverLearner. Sa promesse : une évaluation d’autant plus précise qu’elle induit une séparation claire vis-à-vis du raisonnement déductif. Pour cela, on dissocie l’apprentissage des fonctions (qui transforment un input x en un output y) et leur mise en application. La première partie correspond à l’inductif. La deuxième, au déductif. Elle repose sur des interpréteurs de code externes. Une solution censée éviter une tendance qui se manifeste avec les méthodes passant directement d’observations à des instances spécifiques : le« masquage » des étapes de raisonnement inductif. Avec, en conséquence, le risque d’attribuer les sous-performances inductives aux capacités déductives (= d’exécution de tâches).

Pour favoriser la comparaison des deux types de raisonnements, les chercheurs ont défini un ensemble d’expériences utilisant chacune une tâche reproduite dans différents contextes, orientés déductif ou inductif. Pour éviter de confronter les LLM à des tâches qu’ils ont déjà rencontrées à l’entraînement, l’étude a privilégié les raisonnements contrefactuels. On choisit en outre des tâches auxquelles une seule fonction peut se prêter.

Des LLM évalués sur des tâches non conventionnelles

Sur le volet arithmétique, on est sur un problème d’addition de nombre à deux chiffres sur les bases 8, 9, 10, 11 et 16. En mode déductif, le LLM connaît la base et doit réaliser les additions. En inductif, il doit trouver la base à partir d’exemples.

Prompts utilisés sur la tâche arithmétique.

Un autre test couvre le raisonnement syntaxique. Il consiste à construire, en anglais, des phrases de 3 mots au format sujet-verbe-complément, puis à en générer 5 variations ne respectant pas cet ordre. En déductif, le modèle connaît la règle d’ordonnancement et doit trouver sujet, verbe et complément. En inductif, on lui donne des paires (une sujet-verbe-complément, l’autre modifiée). Il doit alors apprendre la règle d’ordonnancement et l’appliquer sur de nouvelles phrases.

Le benchmark inclut aussi un test de raisonnement spatial. Il se fonde sur 100 pièces aléatoires contenant chacune 3 objets. Leurs coordonnées sont représentées par des vecteurs unitaires : nord = (0, 1), sud = (0, -1), est = (1, 0), ouest = (-1, 0). On modifie ces associations selon plusieurs scénarios. En déductif, le modèle doit calculer les coordonnées à partir du mapping. En inductif, il doit comprendre les changements de mapping à partir d’exemples.

Dernier test : le déchiffrement de message, avec plusieurs méthodes dont le Morse et le code de César (chiffrement par décalage). En déductif, on fournit la méthode et le LLM doit décoder les messages. En inductif, il doit identifier la méthode à partir de paires de chaînes (chiffré, déchiffré).

Claude et GPT, bons généralisateurs… avec le bon framework ?

Pour la partie déductive, deux scénarios d’évaluation : en direct (0-shot) ou en fournissant des exemples en plus de la fonction (8-IO). Même chose pour l’inductif : 8-IO sans fonction et SolverLearner 8-shot (ou 16-shot).

L’étude fournit des résultats pour trois modèles : GPT-3.5 (gpt-3.5-turbo-1106), GPT-4 (gpt-4-1106-preview) et Claude 3 Sonnet (claude-3-sonnet-20240229-v1:0). Il en ressort des capacités jugées faibles en déductif, surtout sur le contrefactuel. Intégrer des exemples – donc faire jouer le raisonnement déductif – améliore les performances.
Avec SolverLeaner, GPT-4 atteint systématiquement un score parfait. GPT-3.5 le fait sur la plupart des tâches.

Comparaison des capacités inductives et déductives ; SolverLearner en bleu, le 0-shot en orange.

Illustration principale générée par IA

NextCapgemini gobe Syniti et son expertise SAP »

Previous « VMware Explore 2024 : Broadcom très prospectif sur l'offre VCF

Published by

Clément Bohic

Tags: llm

2 jours ago

Les MDM se mettent à l’heure d’Apple Intelligence

À l'approche du déploiement d'Apple Intelligence, les fournisseurs de MDM intègrent les stratégies - pour…

3 heures ago

ChatGPT

Régulations

Le DSA, autre chef d’accusation pour Telegram

Telegram devrait-il être soumis au DSA ? Bruxelles doute des données d'audience que lui a…

1 jour ago

Capgemini gobe Syniti et son expertise SAP

Capgemini entend mettre la main sur Syniti, qui fournit des solutions de gestion des données…

1 jour ago

Le raisonnement inductif, capacité sous-estimée des LLM ?

Des LLM évalués sur des tâches non conventionnelles

Claude et GPT, bons généralisateurs… avec le bon framework ?

Recent Posts

Les MDM se mettent à l’heure d’Apple Intelligence

OpenAI et Anthropic vont partager des modèles d’IA avec le gouvernement américain

Firefox généralise le HTTPS par défaut

LinkedIn fait désormais sans CentOS

Le DSA, autre chef d’accusation pour Telegram

Capgemini gobe Syniti et son expertise SAP

Le raisonnement inductif, capacité sous-estimée des LLM ?

Des LLM évalués sur des tâches non conventionnelles

Claude et GPT, bons généralisateurs… avec le bon framework ?

Related Post

Recent Posts

Les MDM se mettent à l’heure d’Apple Intelligence

OpenAI et Anthropic vont partager des modèles d’IA avec le gouvernement américain

Firefox généralise le HTTPS par défaut

LinkedIn fait désormais sans CentOS

Le DSA, autre chef d’accusation pour Telegram

Capgemini gobe Syniti et son expertise SAP