Vers une pénurie de données d'entraînement pour l'IA ?

À quand l'éventuel épuisement des stocks de données pour les modèles de langage et de vision ? Une étude se penche sur le phénomène.

Publié par Clément Bohic le 30 mai 2023 | mis à jour à 14:38

Lecture
3 min

Imprimer

De la data « de haute qualité », c'est quoi au juste ? Des chercheurs se sont confrontés à la question en examinant trois jeux de données : The Pile, MassiveText et celui qui a servi à entraîner PaLM. En toile de fond, une question : risque-t-on un jour de manquer de matière pour former des modèles de machine learning ?

Cette étude n'est pas, et de loin, la première sur le sujet. Elle s'inspire d'ailleurs de travaux précédents ayant par exemple permis d'estimer le taux annuel de croissance des datasets. La méthodologie est toutefois spécifique, et pas seulement parce qu'elle touche à la qualité des données.

Le périmètre d'étude a englobé deux disciplines : le traitement du langage et la vision. Sur chacun de ces plans, on a estimé l'évolution du stock disponible de données non étiquetées. Puis on l'a rapporté à l'évolution de la taille des datasets pour déterminer à partir de quand il serait théoriquement épuisé.

Le calcul de l'évolution du stock a reposé sur trois paramètres majeurs. En l'occurrence :

- Croissance de la population mondiale (projections de l'ONU)
- Taux de pénétration d'Internet (source : Our World in Data)
- Quantité moyenne de données produite par utilisateur (on la suppose constante)

Pour ce qui est de l'évolution de la taille des datasets, on a utilisé deux méthodes d'extrapolation. L'une basée sur les données historiques (tableau ci-dessous). L'autre, sur la « taille optimale »* étant donné les ressources de calcul à disposition et les lois actuelles de mise à l'échelle.

En octobre 2022, le plus gros jeu de données dans le domaine du langage contenait 2 x 1012 mots.

Qu'en est-il du stock de données disponible ?
Sur la partie langage, la médiane des estimations ressort à 7,41 x 10¹⁴ mots, avec un taux de croissance annuel médian de 7,15 %.
Sur la partie vision, on en est à 4,36 x 10¹² images (croissance annuelle : 8,14 %).

Certains stocks épuisés en 2026 ?

Sur la foi de ces estimations, on devrait commencer à manquer de données de langage entre 2030 et 2050.

En rouge, la taille des datasets extrapolée à partie des données historiques. En bleu, à partir de l'évolution estimée des ressources de calcul.

Si on s'en tient aux données de haute qualité (entre 4,6 x 10¹² et 1,7 x 10¹³ mots), l'épuisement des stocks interviendrait au plus tard en 2026.

Dans le domaine de la vision, le stock de données d'entraînement croît en moyenne de 8 % par an. Alors que la taille des datasets augmente de 18 à 31 %. Dans ces conditions, un épuisement est à prévoir entre 2030 et 2060. Une fourchette peu précise qui tient notamment à une moins bonne compréhension des lois de scaling que pour le langage.

L'étude présente d'autres limites. Elle n'aborde pas, entre autres, le cas des données synthétiques. Ni les progrès dernièrement constatés en matière de frugalité des modèles d'apprentissage automatique. De même, la disponibilité de ressources de calcul est sujette à variations. Le taux de production de données aussi (les chercheurs ont considérée qu'elle était proportionnel au taux de croissance de l'économie mondiale).

* La taille « optimale » est définie comme fonction de la racine carrée du budget calcul.

Illustration principale © aapsky - Adobe Stock

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Vers une pénurie de données d'entraînement pour l'IA ?

Certains stocks épuisés en 2026 ?

Les insuffisances de Sesam, SI métier de la DGCCRF

Qu'est-ce que le protocole MCP, qui monte dans l'univers de [...]

La CNIL face aux limites du chiffrement homomorphe

Quelle infrastructure on-premise pour porter une stratégie IA ?

De l'UX à l'AX : penser les interfaces pour les agents IA

S’abonner

Cybersécurité et digitalisation Comment protéger les [...]

Leader des services de réponse à incident de cybersécurité

Comment optimiser la consommation énergétique d’un [...]

Comment l'IA améliore la qualité de vos réunions ?

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Certains stocks épuisés en 2026 ?

S’abonner

Partager l'épisode