ChatGPT risque-t-il de « privatiser » la connaissance ?

Une étude universitaire pose la question de l'accaparement de la connaissance par les LLM, au premier rang desquels ChatGPT.

Publié par Clément Bohic le 18 juil. 2023 | Mis à jour le 20 juil. 2023 à 12:05

Lecture
3 min

Imprimer

Les grands modèles de langage (LLM), une menace pour les biens numériques publics ? Trois chercheurs universitaires se sont penchés sur la question. Leur principal support d'étude : l'évolution des publications sur Stack Overflow après le lancement de ChatGPT.

Le postulat, dans les grandes lignes, était le suivant :

- Les LLM sont un substitut potentiel à de nombreuses méthodes « ouvertes » d'acquisition de connaissances... dont les forums tel Stack Overflow.

- L'interaction avec ces LLM étant privée, il existe un risque de réduction de la quantité - et éventuellement de la qualité - des connaissances publiquement accessibles.

- Il en résulterait, entre autres, un manque de données d'entraînement pour de futurs modèles.

- Les progrès des LLM reposeraient ainsi plus sensiblement sur ces interactions privées. Ce qui bénéficierait aux plus populaires, comme ChatGPT.

- On peut imaginer former des LLM avec des données produites par d'autres LLM, mais la méthode a ses limites.

Un « effet ChatGPT » marqué sur Stack Overflow

Début 2016, Stack Overflow enregistrait environ 110 000 posts par semaine, d'après les données qu'ont collectées les chercheurs. Le volume a ensuite décru, en moyenne, de 7000 posts chaque année, pour atteindre 60 000 début 2022.

La chute s'est accélérée à partir du lancement de ChatGPT fin novembre : 20 000 posts hebdomadaires de moins en six mois.

Lire aussi : ChatGPT, la fin de l'humanité ?

On n'a pas constaté le même phénomène sur les quatre autres plates-formes examinées. D'une part, la version russe de Stack Overflow et son homologue chinoise Segmentfault. De l'autre, Mathematics StackExchange et MathOverflow.

Aucune, a-t-on estimé, n'était susceptible d'être remplacée par ChatGPT. Les deux premières, parce qu'elles couvraient des zones géographiques où l'accès au chatbot d'OpenAI est officiellement limité. Les deux autres parce qu'elles touchent à des sujets qui ne sont pas sont point fort (voir notre article « Bard, ChatGPT et leurs limites de raisonnement »).

CUDA, exception à la baisse

Par « post », il faut entendre à la fois les questions et les réponses. Pour les unes et les autres, la chute post-ChatGPT est similaire.

On pourrait supposer que les connaissances « de base » disparaissent pour laisser place à des discussions plus qualitatives. L'examen des votes sur les posts ne le suggère pas : il n'y a pas eu d'évolution significative.

Les chercheurs reconnaissent que cet indicateur peut ne pas refléter la véritable qualité des publications. C'est l'une des limites de leur étude, admettent-ils. Aux côtés, notamment, du point d'interrogation sur la capacité des utilisateurs russes et chinois d'accéder tout de même à ChatGPT. Et de citer, à ce propos, des travaux qui ont démontré un pic de connexions VPN après le blocage - temporaire - du chatbot en Italie.

Si on se penche sur l'évolution du volume de posts par langage de programmation, l'« effet ChatGPT » a été négatif pour la plupart d'entre eux. Les plus touchés sont globalement aussi les plus populaires, en tout cas sur la foi de l'étalon que les chercheurs ont défini : le nombre de dépôts GitHub à juin 2021.

Ils sont cinq à faire exception à la baisse du volume de questions-réponses. Nommément, Objective-C, VBScript, Fortran, CUDA et Delphi.

Illustration principale générée par IA

Publié par :
Clément Bohic

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

ChatGPT risque-t-il de « privatiser » la connaissance ?

Un « effet ChatGPT » marqué sur Stack Overflow

CUDA, exception à la baisse

De l'UX à l'AX : penser les interfaces pour les agents IA

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

IA et copyright : la perspective d'une norme IETF réconciliatrice

Les avancées d'Open R1, ce projet qui veut reproduire les [...]

NVIDIA à fond sur l'inférence : quelques éléments à retenir de [...]

S’abonner

Simplifier l’architecture et améliorer la sécurité

Réunir la connectivité et la sécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Un « effet ChatGPT » marqué sur Stack Overflow

CUDA, exception à la baisse

S’abonner

Partager l'épisode