De BigScience à BigCode : la quête d'IA génératives « éthiques »

Dans la lignée du projet BigScience, BigCode tente d'appliquer la même logique « responsable » aux IA génératrices de code.

Publié par Clément Bohic le 1 févr. 2023 | mis à jour à 17:35

Lecture
4 min

Imprimer

Vous souvenez-vous de BigScience ? Ce projet communautaire visait à concevoir « le plus grand modèle de langue multilingue et open source ». À la baguette, Hugging Face, entreprise que trois Français ont fondée à New York.

Les travaux avaient abouti, en juillet 2022, à la publication de BLOOM (BigScience Large Open-science Open-access Multilingual Language Model). Ils ont inspiré un autre projet, là aussi emmené par Hugging Face, en tandem avec ServiceNow : BigCode.

La notion d'IA « responsable » était au coeur de la démarche BigScience. Cela s'est reflété autant dans la composition du jeu de données d'entraînement que dans la licence du modèle qui en a découlé.

BigCode s'inscrit dans la même logique, mais sur le domaine de la programmation informatique. Et en allant plus loin sur plusieurs aspects. Notamment en détaillant, outre la composition du dataset, sa méthode de conception (masquage des données personnelles*, limitation du risque de production de code malveillant...).

BigCode : à licences permissives, dataset éthique ?

BigCode insiste sur le caractère « éthique » du dataset en question - nommé « The Stack » au sens où il ne contient que du code sous licences « permissives » (copyleft).

Comment en est-on arrivé à The Stack ? La première étape a consisté à détecter, via GHArchive, les dépôts GitHub publics actifs sur la période du 1^er janvier 2015 au 31 mars 2022. Il en a résulté quelque 221 millions de résultats.

BigCode est parvenu à cloner environ 137 millions de dépôts qui étaient encore publiquement accessibles. Ensuite a commencé la phase de découverte des licences. Pour 26 millions de dépôts, elles étaient explicitement indiquées. Sur les 111 autres millions, on a utilisé le script go-license-detector... qui n'a rien détecté dans plus de 80 % des cas.

Une fois ce filtrage effectué, il restait un peu moins de 30 To de données. On a alors appliqué une double quasi-déduplication (procédure connue pour améliorer les performances des modèles entraînés). Ce qui a divisé le poids du dataset par près de dix.

On parle là de la première version de The Stack, qui incluait une trentaine de langages pour une vingtaine de licences. Depuis lors, on est passé à près de 400 langages et 200 licences (MIT et Apache 2.0 dominent au sein du corpus). Non sans en supprimer quelques-unes, considérées comme insuffisamment permissives. En l'occurrence, EPL, LGPL et MPL.

Pour qui souhaiterait qu'on n'inclue pas son code, il existe un moteur de recherche et un formulaire d'opt-out. L'outil permet autant les contrôles a priori (code intégré dans le dataset) qu'a posteriori (code que produisent les modèles de BigCode).

À portée de Codex ?

Se limiter à des licences permissives a-t-il un impact sur les performances ? Le benchmark référent de BigCode indique que non. Il a consisté à entraîner plusieurs modèles à 350 millions de paramètres sur un sous-ensemble Python issu de The Stack v1.

Conclusion : avec la quasi-déduplication, les performances sont équivalentes à celles de modèles Codex et CodeGen de taille similaire. En tout cas sur les tests de complétion HumanEval et MBBP.

SantaCoder, dans la lignée de BLOOM

BigScience avait développé BLOOM sur la base d'un clone de Megatron-LM, un modèle de langage made in NVIDIA architecturé à la manière de GPT-2. BigCode a repris ce substrat pour créer, sur la base de The Stack, une série de huit modèles, sous la bannière SantaCoder.

Tous ces modèles ont été formés sur du code Python, Java et JavaScript. Le plus « gros » d'entre eux a été entraîné deux fois plus longtemps que les autres (six jours et quelques sur un setup à 96 GPU Tesla V100, pour 2,1 x 10²¹ Flops. Il a 1,1 milliard d'hyperparamètres.

BigScience avait publié BLOOM sous la licence OpenRAIL-M. Dans les grandes lignes, elle est non restrictive sur la réutilisation, la distribution, la commercialisation et l'adaptation, mais elle interdit certains usages, par exemple dans le cas de l'aide médicale.

BigCode a réexploité cette licence pour les modèles SantaCoder et les fonctionnalités associées (de type checkpoints), moyennant quelques modifications. À commencer par le préambule, adapté aux IA génératrices de code. Mais aussi en supprimant l'incitation à utiliser autant que possible les dernières versions des modèles. Et en ajoutant une clause : tout code source produit sera sous licence Apache 2.0.

La licence OpenRAIL-M sous cette forme est provisoire, en attendant le lancement officiel de SantaCoder. Celui-ci est prévu pour mars.

* Pour détecter les adresses e-mail, BigCode a fait le choix des expressions régulières. Même chose pour les adresses IP. Pour les secrets, le projet a recours à un outil spécifique.

Illustration principale © pro motion pic - Fotolia

Publié par :
Clément Bohic

Tags associés :

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

De BigScience à BigCode : la quête d'IA génératives « éthiques »

BigCode : à licences permissives, dataset éthique ?

À portée de Codex ?

SantaCoder, dans la lignée de BLOOM

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Cybersécurité et digitalisation Comment protéger les [...]

Leader des services de réponse à incident de cybersécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

BigCode : à licences permissives, dataset éthique ?

À portée de Codex ?

SantaCoder, dans la lignée de BLOOM

S’abonner

Partager l'épisode