Du « Monde » à Reddit, le point sur les partenariats data d’OpenAI

OpenAI partenariats data

Reddit s’ajoute à la liste des « partenaires data » d’OpenAI. Qui rejoint-il ?

Un client de plus pour la Data API de Reddit : OpenAI.

Ce dernier va pouvoir faire remonter des contenus structurés vers ChatGPT. Il devient, en parallèle, un « partenaire publicitaire » du réseau social. Et un fournisseur, dans une perspective de mise à disposition de solutions d’IA pour les utilisateurs et les modérateurs.

L’accord fait écho à celui annoncé début mai avec Stack Overflow. OpenAI a là aussi négocié une intégration API pour faire remonter du contenu (ici, de nature technique) dans ChatGPT. Un partenariat qui a entraîné une rébellion – suivie de bannissements – dans la communauté des utilisateurs de ce forum.

Du Monde au Financial Times, les médias signent avec OpenAI…

OpenAI n’a pas évoqué le canal API dans le cadre de ses derniers partenariats avec des médias. Ni même, plus globalement, les données concernées. Il explique simplement que les utilisateurs de ChatGPT pourront voir une sélection de résumés, avec des liens vers les contenus d’origine. Ce fut le cas fin avril avec le Financial Times. Lequel veut croire, par cet intermédiaire, à un « élargissement de [son] audience » et à une « compréhension approfondie des intérêts des lecteurs ».

En façade, Le Monde et Prisa Media (El País, Cinco Días, As, El Huffpost) tinrent des discours similaires mi-mars. OpenAI insista quant à lui sur l’intégration d’éléments relatifs à des « événements récents » et sur l’usage du contenu pour entraîner ses modèles.
Même communication fin 2023 avec le groupe Axel Springer. Celui-ci avait fait miroiter l’intégration de contenu – y compris payant – de marques comme Politico, Business Insider, Bild et Welt.

Avant Axel Springer, Associated Press avait noué un accord avec OpenAI. C’était en juillet 2023. L’agence a, en conséquence, donné accès à une partie de ses archives texte.
Presque en parallèle, OpenAI s’était associé à l’American Journalism Project. Il était question d’un investissement de 5 M$ dans les activités de ce  fonds philanthrope soutenir le journalisme local. Et de l’octroi du même montant en « crédits OpenAI » pour des organisations que soutient ce fonds.
Auparavant (avril 2023), OpenAI avait subventionné à hauteur de 395 k$ une initiative « journalisme et éthique » de l’université de New York. À sa tête, Stephen Adler, rédacteur en chef de Reuters de 2011 à 2021.

… mais pas le New York Times

OpenAI assure avoir tenté de trouver un accord avec le New York Times… en vain. Fin 2023, ce dernier a finalement porté plainte aux États-Unis. En réaction, début janvier, le groupe de Sam Altman a fait valoir la « jurisprudence » qui imposerait de considérer comme un usage « raisonnable » (fair use) le fait d’entraîner des modèles d’IA sur des contenus publiquement accessibles. Il avance aussi diverses législations qui, à son avis, iraient dans ce sens. Dont la directive européenne de 2019 sur le droit d’auteur et les droits voisins.

En plus de l’accuser d’avoir manipulé ChatGPT pour le pousser à produire le contenu incriminé, OpenAI rappelle que le New York Times a adopté, en août 2023, son système d’opt-out pour le crawler GPTbot.

Vers un vrai système d’opt-out en 2025 ?

En novembre 2023, OpenAI avait structuré son approche en une initiative « Data Partnerships ». Il recherche, dans ce cadre, « des datasets à grande échelle non aisément accessibles au public ». Plus particulièrement, des « données qui expriment l’intention humaine » – autrement dit, explique-t-il, des contenus longs.
Deux modes d’exploitation des données sont proposés : soit les injecter dans un dataset open source, soit ne pas les publier et simplement en alimenter ChatGPT & Cie (« Idéal si vous souhaitez que nos modèles comprennent mieux votre domaine » déclare OpenAI).

Pour contextualiser cette initiative, OpenAI avait rappelé, entre autres, ses travaux avec le gouvernement islandais. Ce dernier mène une initiative publique-privée pour améliorer les capacités de GPT-4 dans la langue nationale.

OpenAI a remis ce partenariat en exergue la semaine dernière, à l’occasion d’un point sur son « approche de la data et de l’IA ». Il a également rappelé ses accords avec Khan Academy pour améliorer ses modèles en maths et avec « une bibliothèque de vidéos majeure » pour entraîner Sora.
Pour ce qui est de son système d’opt-out, OpenAI met de l’eau dans son vin. Il reconnaît qu’un tel outil est insuffisant. « Les créateurs ne contrôlent pas toujours les sites où leur contenu apparaît. Souvent, le contenu est cité, adapté, reposté… Nous avons besoin d’une solution scalable ». Il y en a une dans les cartons, prévue pour 2025 sous la marque Media Manager.

Illustration © PixieMe – Adobe Stock