Les 5 datasets les plus populaires sur Hugging Face

GLUE, NLLB, PIQA... Le point sur les cinq datasets les plus téléchargés depuis la plate-forme Hugging Face.

Publié par Clément Bohic le 10 mai 2023 - mis à jour à 18:03

Lecture
3 min

Imprimer

Quel est le modèle le plus populaire sur Hugging Face ? Une version de base de BERT non sensible à la casse. En tout cas si on juge à l'aune de ses quelque 69 millions de téléchargements sur le dernier mois.

En se basant sur ce même critère, voici les cinq datasets les plus populaires au 10 mai 2023.

NLLB

1,92 million de téléchargements sur le dernier mois pour ce dataset publié par l'Allen Institute for AI.

Source : les travaux que Meta AI mène sous la bannière NLLB (No Language Left Behind). Leur objectif : publier des modèles capable de faire de la traduction directe entre « plus de 200 langues ».

Meta AI s'est appuyé sur en partie sur des données publiques. Il a aussi extrait des paires de phrases grâce à une bibliothèque et des encodeurs maison.

C'est cet outillage qui a permis de constituer le dataset disponible sur la plate-forme Hugging Face. Sous licence ODC-By, il contient un peu plus de 1500 paires sous forme tabulaire. Recommandation : l'utilisation pour l'entraînement ; pas pour l'évaluation.

MusicCaps

Origine Google AI pour ce dataset sous licence CC BY-SA 4.0 qui totalise environ 983 000 téléchargements sur le mois écoulé.

À la racine, il y a autre dataset made in Google AI : AudioSet. Celui-ci contient des séquences audio de 10 secondes tirées de vidéos YouTube. Elles sont annotées en fonction de la présence de certains éléments (environ 500 étiquettes : vent, coup de feu, hélicoptère, pigeon...).

MusicCaps en reprend un sous-ensemble d'environ 5000 exemples musicaux, annotés en détail par des musiciens. Il ne contient toutefois pas directement les fichiers, mais les identifiants des vidéos correspondantes, avec les marqueurs de temps. Il ne pèse donc que 3 Mo environ (format CSV).

Un script et un notebook sont disponibles pour faciliter le téléchargement des clips.

GLUE

Environ 982 000 téléchargements sur le dernier mois via Hugging Face pour ce dataset associé au benchmark du même nom.

GLUE (General Language Understanding Evaluation) met les modèles de langage à l'épreuve sur une dizaine de tâches. Parmi elles :

- Acceptabilité grammaticale, à partir du dataset CoLA (Corpus of Linguistic Acceptability)
- Implication d'un énoncé dans un autre, à partir de MultiNLI (Multi-Genre Natural Language Inference)
- Équivalence sémantique, à partir de MRPC (Microsoft Research Paraphrase Corpus)
- Détermination d'antécédent, à partir de WNLI (Winograd Schema Challenge)

Le dataset GLUE complet, tel que publié sur Hugging Face, pèse environ 1 Go.

PIQA

Environ 847 000 téléchargements pour ce dataset sous licence AFL 3.0 destiné à former et à évaluer le « sens commun ».

PIQA (Physical Interaction : Question Answering) contient quelque 20 000 exemples sur le format « une question, deux options », de type « pour mettre du fard à paupières sans pinceau, devrais-je utiliser un coton-tige ou un cure-dent ? ».

Les exemples sont inspirés du site de tutos DIY Instructables. Un choix censé garantir la prise en compte, par les annotateurs, d'usages atypiques des objets de tous les jours.

SciQ

Environ 800 000 téléchargements au compteur sur le mois écoulé pour ce dataset qu'on doit à l'Allen Institute for AI. Il comprend quelque 14 000 questions à choix multiples de physique, de chimie et de biologie, entre autres. La plupart des exemples sont assortis d'explications.

Taille totale du dataset : environ 10 Mo. Il est mis à disposition sous licence CC BY-NC 3.0.

Photo d'illustration © Alfazet Chronicles - Adobe Stock

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Les 5 datasets les plus populaires sur Hugging Face

NLLB

MusicCaps

GLUE

PIQA

SciQ

Chargeur universel : l'UE n'est pas contre un iPhone sans port USB-C

Les mini-PC petascale de NVIDIA prennent corps

PC IA : une adoption entre enthousiasme et incertitude

RCS passe au chiffrement de bout en bout : iOS et Android réconciliés

Amazon Chime : le concurrent de Zoom bientôt débranché

S’abonner

Sécuriser les solutions de communications unifiées et [...]

Optimisez votre gestion documentaire avec la GED

Simplifier l’architecture et améliorer la sécurité

Un guide pour sécuriser la connectivité des [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

S’abonner

Partager l'épisode