Les 5 datasets les plus populaires sur Hugging Face

Quel est le modèle le plus populaire sur Hugging Face ? Une version de base de BERT non sensible à la casse. En tout cas si on juge à l’aune de ses quelque 69 millions de téléchargements sur le dernier mois.

En se basant sur ce même critère, voici les cinq datasets les plus populaires au 10 mai 2023.

NLLB

1,92 million de téléchargements sur le dernier mois pour ce dataset publié par l’Allen Institute for AI.

Source : les travaux que Meta AI mène sous la bannière NLLB (No Language Left Behind). Leur objectif : publier des modèles capable de faire de la traduction directe entre « plus de 200 langues ».

Meta AI s’est appuyé sur en partie sur des données publiques. Il a aussi extrait des paires de phrases grâce à une bibliothèque et des encodeurs maison.

C’est cet outillage qui a permis de constituer le dataset disponible sur la plate-forme Hugging Face. Sous licence ODC-By, il contient un peu plus de 1500 paires sous forme tabulaire. Recommandation : l’utilisation pour l’entraînement ; pas pour l’évaluation.

MusicCaps

Origine Google AI pour ce dataset sous licence CC BY-SA 4.0 qui totalise environ 983 000 téléchargements sur le mois écoulé.

À la racine, il y a autre dataset made in Google AI : AudioSet. Celui-ci contient des séquences audio de 10 secondes tirées de vidéos YouTube. Elles sont annotées en fonction de la présence de certains éléments (environ 500 étiquettes : vent, coup de feu, hélicoptère, pigeon…).

MusicCaps en reprend un sous-ensemble d’environ 5000 exemples musicaux, annotés en détail par des musiciens. Il ne contient toutefois pas directement les fichiers, mais les identifiants des vidéos correspondantes, avec les marqueurs de temps. Il ne pèse donc que 3 Mo environ (format CSV).

Un script et un notebook sont disponibles pour faciliter le téléchargement des clips.

GLUE

Environ 982 000 téléchargements sur le dernier mois via Hugging Face pour ce dataset associé au benchmark du même nom.

GLUE (General Language Understanding Evaluation) met les modèles de langage à l’épreuve sur une dizaine de tâches. Parmi elles :

– Acceptabilité grammaticale, à partir du dataset CoLA (Corpus of Linguistic Acceptability)
– Implication d’un énoncé dans un autre, à partir de MultiNLI (Multi-Genre Natural Language Inference)
– Équivalence sémantique, à partir de MRPC (Microsoft Research Paraphrase Corpus)
– Détermination d’antécédent, à partir de WNLI (Winograd Schema Challenge)

Le dataset GLUE complet, tel que publié sur Hugging Face, pèse environ 1 Go.

PIQA

Environ 847 000 téléchargements pour ce dataset sous licence AFL 3.0 destiné à former et à évaluer le « sens commun ».

PIQA (Physical Interaction : Question Answering) contient quelque 20 000 exemples sur le format « une question, deux options », de type « pour mettre du fard à paupières sans pinceau, devrais-je utiliser un coton-tige ou un cure-dent ? ».

Les exemples sont inspirés du site de tutos DIY Instructables. Un choix censé garantir la prise en compte, par les annotateurs, d’usages atypiques des objets de tous les jours.

SciQ

Environ 800 000 téléchargements au compteur sur le mois écoulé pour ce dataset qu’on doit à l’Allen Institute for AI. Il comprend quelque 14 000 questions à choix multiples de physique, de chimie et de biologie, entre autres. La plupart des exemples sont assortis d’explications.

Taille totale du dataset : environ 10 Mo. Il est mis à disposition sous licence CC BY-NC 3.0.

Photo d’illustration © Alfazet Chronicles – Adobe Stock