Du « Monde » à Reddit, le point sur les partenariats data d'OpenAI

Reddit s’ajoute à la liste des « partenaires data » d’OpenAI. Qui rejoint-il ?

Publié par Clément Bohic le 17 mai 2024 | Mis à jour le 20 mai 2024 à 11:18

Lecture
4 min

Imprimer

Un client de plus pour la Data API de Reddit : OpenAI.

Ce dernier va pouvoir faire remonter des contenus structurés vers ChatGPT. Il devient, en parallèle, un « partenaire publicitaire » du réseau social. Et un fournisseur, dans une perspective de mise à disposition de solutions d’IA pour les utilisateurs et les modérateurs.

L’accord fait écho à celui annoncé début mai avec Stack Overflow. OpenAI a là aussi négocié une intégration API pour faire remonter du contenu (ici, de nature technique) dans ChatGPT. Un partenariat qui a entraîné une rébellion – suivie de bannissements – dans la communauté des utilisateurs de ce forum.

Du Monde au Financial Times, les médias signent avec OpenAI…

OpenAI n’a pas évoqué le canal API dans le cadre de ses derniers partenariats avec des médias. Ni même, plus globalement, les données concernées. Il explique simplement que les utilisateurs de ChatGPT pourront voir une sélection de résumés, avec des liens vers les contenus d’origine. Ce fut le cas fin avril avec le Financial Times. Lequel veut croire, par cet intermédiaire, à un « élargissement de [son] audience » et à une « compréhension approfondie des intérêts des lecteurs ».

En façade, Le Monde et Prisa Media (El País, Cinco Días, As, El Huffpost) tinrent des discours similaires mi-mars. OpenAI insista quant à lui sur l’intégration d’éléments relatifs à des « événements récents » et sur l’usage du contenu pour entraîner ses modèles.
Même communication fin 2023 avec le groupe Axel Springer. Celui-ci avait fait miroiter l’intégration de contenu – y compris payant – de marques comme Politico, Business Insider, Bild et Welt.

Avant Axel Springer, Associated Press avait noué un accord avec OpenAI. C’était en juillet 2023. L’agence a, en conséquence, donné accès à une partie de ses archives texte.
Presque en parallèle, OpenAI s’était associé à l’American Journalism Project. Il était question d’un investissement de 5 M$ dans les activités de ce fonds philanthrope soutenir le journalisme local. Et de l’octroi du même montant en « crédits OpenAI » pour des organisations que soutient ce fonds.
Auparavant (avril 2023), OpenAI avait subventionné à hauteur de 395 k$ une initiative « journalisme et éthique » de l’université de New York. À sa tête, Stephen Adler, rédacteur en chef de Reuters de 2011 à 2021.

… mais pas le New York Times

OpenAI assure avoir tenté de trouver un accord avec le New York Times… en vain. Fin 2023, ce dernier a finalement porté plainte aux États-Unis. En réaction, début janvier, le groupe de Sam Altman a fait valoir la « jurisprudence » qui imposerait de considérer comme un usage « raisonnable » (fair use) le fait d’entraîner des modèles d’IA sur des contenus publiquement accessibles. Il avance aussi diverses législations qui, à son avis, iraient dans ce sens. Dont la directive européenne de 2019 sur le droit d’auteur et les droits voisins.

En plus de l’accuser d’avoir manipulé ChatGPT pour le pousser à produire le contenu incriminé, OpenAI rappelle que le New York Times a adopté, en août 2023, son système d’opt-out pour le crawler GPTbot.

Vers un vrai système d’opt-out en 2025 ?

En novembre 2023, OpenAI avait structuré son approche en une initiative « Data Partnerships ». Il recherche, dans ce cadre, « des datasets à grande échelle non aisément accessibles au public ». Plus particulièrement, des « données qui expriment l’intention humaine » – autrement dit, explique-t-il, des contenus longs.
Deux modes d’exploitation des données sont proposés : soit les injecter dans un dataset open source, soit ne pas les publier et simplement en alimenter ChatGPT & Cie (« Idéal si vous souhaitez que nos modèles comprennent mieux votre domaine » déclare OpenAI).

Pour contextualiser cette initiative, OpenAI avait rappelé, entre autres, ses travaux avec le gouvernement islandais. Ce dernier mène une initiative publique-privée pour améliorer les capacités de GPT-4 dans la langue nationale.

OpenAI a remis ce partenariat en exergue la semaine dernière, à l’occasion d’un point sur son « approche de la data et de l’IA ». Il a également rappelé ses accords avec Khan Academy pour améliorer ses modèles en maths et avec « une bibliothèque de vidéos majeure » pour entraîner Sora.
Pour ce qui est de son système d’opt-out, OpenAI met de l’eau dans son vin. Il reconnaît qu’un tel outil est insuffisant. « Les créateurs ne contrôlent pas toujours les sites où leur contenu apparaît. Souvent, le contenu est cité, adapté, reposté… Nous avons besoin d’une solution scalable ». Il y en a une dans les cartons, prévue pour 2025 sous la marque Media Manager.

Illustration © PixieMe – Adobe Stock

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Du « Monde » à Reddit, le point sur les partenariats data d'OpenAI

Du Monde au Financial Times, les médias signent avec OpenAI…

… mais pas le New York Times

Vers un vrai système d’opt-out en 2025 ?

La CNIL face aux limites du chiffrement homomorphe

Avec les LLM, peut-on concilier qualité et diversité des réponses ?

De l'UX à l'AX : penser les interfaces pour les agents IA

IA et copyright : la perspective d'une norme IETF réconciliatrice

Les avancées d'Open R1, ce projet qui veut reproduire les [...]

S’abonner

Sécuriser les solutions de communications unifiées et [...]

Optimisez votre gestion documentaire avec la GED

Simplifier l’architecture et améliorer la sécurité

Un guide pour sécuriser la connectivité des [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Du Monde au Financial Times, les médias signent avec OpenAI…

… mais pas le New York Times

Vers un vrai système d’opt-out en 2025 ?

S’abonner

Partager l'épisode