Pour mieux raisonner, les LLM doivent-ils se passer du langage ?

Des chercheurs ont exploré les bénéfices de ne pas traduire en langage les chaînes de pensée que les LLM produisent lors de tâches de raisonnement.

Publié par La rédaction le 13 déc. 2024 | mis à jour à 13:08

Lecture
2 min

Imprimer

Le langage, pas indispensable au raisonnement ? Ce constat, diverses études l'ont établi pour ce qui est du cerveau humain.

Les équipes de Facebook AI Research s'en sont emparées... pour l'appliquer aux LLM. Il en résulte une méthode dite COCONUT (Chain of Continuous Thought).

Cette méthode adapte le principe de la chaîne de pensée (CoT, chain of thought) en écartant la modalité langage*. Dans les grandes lignes, au lieu de traduire en tokens le dernier état caché du modèle, on renvoie directement cet état en tant qu'input pour la prédiction suivante. On travaille donc dans un espace latent continu.

Une tel système - optimisable par descente de gradient et permettant la rétropropagation - permet d'encoder simultanément plusieurs next steps potentiels. Et donc à un LLM d'explorer, à chaque étape, plusieurs solutions, plutôt que de s'engager sur une voie déterminée. Un fonctionnement assimilable à de la recherche BFS (algorithme de parcours en largeur)**.

Une variante hybride de COCONUT

D'après des expériences effectuées avec un modèle GPT-2, la méthode COCONUT peut passer à l'échelle, au sens où elle conserve des propriétés clés de la CoT : augmenter la profondeur des LLM et améliorer leur expressivité. Elle se révèle par ailleurs effectivement adaptée aux tâches qui demandent beaucoup de planification.

Les chercheurs ont développé une variante "hybride" de COCONUT pouvant interlacer les deux types de raisonnement : soit un paramètre k tel qu'à partir de l'étape k+1, le reste de la chaîne est produit sous forme de langage. Une solution qui procure une forme d'interprétabilité.

Entre autres défis, il s'agit désormais de travailler sur des stratégies d'apprentissage de ce mécanisme de raisonnement, sans supervision sur la base de chaînes traditionnelles.

* Dans les chaînes de pensée, la plupart des tokens servent essentiellement la cohérence textuelle, sans être fondamentaux pour le raisonnement, constatent notamment les chercheurs.

** Sauf qu'au contraire de l'algo BFS, les "LLM COCONUT" démontrent une capacité à prioriser les noeuds prometteurs au seins des arbres ou des graphes.

Illustration générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Pour mieux raisonner, les LLM doivent-ils se passer du langage ?

Une variante hybride de COCONUT

Les insuffisances de Sesam, SI métier de la DGCCRF

Qu'est-ce que le protocole MCP, qui monte dans l'univers de [...]

Quelle infrastructure on-premise pour porter une stratégie IA ?

La CNIL face aux limites du chiffrement homomorphe

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

S’abonner

Simplifier l’architecture et améliorer la sécurité

Réunir la connectivité et la sécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Une variante hybride de COCONUT

S’abonner

Partager l'épisode