Focus IT : Comment le RIG améliore la fiabilité des LLM
Publié par La redaction le - mis à jour à
Une étude récente menée par des chercheurs de Google explore l'utilisation du RIG - Retrieval Interleaved Generation - pour améliorer la précision des LLM lorsqu'ils traitent des requêtes impliquant des gros volumes de données.
Dans une étude intitulée "Knowing When to Ask - Bridging Large Language Models and Data", des chercheurs de Google explore le potentiel du Retrieval Interleaved Generation (RIG), une technique qui vise à améliorer la fiabilité des modèles de langage (LLM) en les connectant à des sources de données externes. Pour tester le RIG, les chercheurs ont utilisé plateforme open-source Data Commons créée par Google pour rendre accessibles les données publiques des Etats-Unis.
RIG : comment ça marche ?
La particularité du RIG est de formuler une requête en langage naturel pour interroger une source de données appropriée lorsqu'un LLM reçoit une requête. Les résultats de celle-ci sont intégrés à la réponse générée par le LLM.
L'étude affirme que le RIG améliore très significativement la fiabilité des résultats en dépit d'un nombre important de requêtes qui restent sans réponse.
Autre atout : la baisse du volume des "hallucinations" du LLM qui peut vérifier les informations auprès de sources fiables, identifiées et actualisées, notamment les statistiques. Cependant, cette efficacité est corrélée à l'utilisation d'un volume important de données.
Les chercheurs ne font aucune référence au RAG (Retrieval-Augmented Generation), un système plus largement utilisé aujourd'hui pour enrichir les LMM, qui consiste à enrichir les requêtes avec des informations récupérées « à la volée » depuis des sources externes.
Sur la base des résultats de l'étude, on ne peut donc pas faire une comparaisons entre les deux systèmes.
Cependant, selon diverses sources, on peut estimer que le RIG apparait plus adapté aux requêtes simples et spécifiques, tandis que le RAG l'est dans la gestion de requêtes plus larges et plus complexes. Le RAG pourrait être plus efficace pour traiter de grands volumes de données, tandis que le RIG pourrait être plus performant avec des ensembles de données plus petits et plus ciblés.