Comment Dropbox applique le machine learning au nommage des fichiers

Dropbox relate son passage d'un moteur de règles à du machine learning pour l'identification de dates dans les noms de fichiers.

Publié par Clément Bohic le 3 oct. 2023 | mis à jour à 18:06

Lecture
3 min

Imprimer

Détecter des dates dans des noms de fichiers ? Il y a DistilRoBERTa pour ça. Dropbox a en tout cas choisi cette option pour alimenter la définition de conventions d'appellation.

Cette fonctionnalité est disponible depuis fin 2021 sur la version web et l'application de bureau. Elle permet de renommer automatiquement les éléments déposés dans un dossier en fonction de règles qu'on aura définies au préalable.

Ces règles peuvent consister en l'ajout de mots-clés, l'inclusion du dossier parent ou l'insertion de métadonnées. On peut aussi inclure la date d'importation.

L'option « Date d'importation » permet de « remplacer les dates existantes détectées dans les noms de fichiers ». À l'origine, cela reposait sur un moteur à base de règles.

Face aux insuffisances de cette approche, Dropbox a formé un modèle d'apprentissage automatique. Et l'a mis en service en août 2022. À la clé, affirme-t-il, une augmentation de 40 % du nombre de fichiers renommés.

L'entreprise a eu recours à de l'apprentissage supervisé. Elle a conçu un jeu de données réunissant quelques milliers de noms de fichiers annotés - avec Doccano - afin de préciser la position des dates. Le développement d'un générateur de données synthétiques a permis de limiter le travail manuel.

Dropbox utilise DistilRoBERTa et SentencePiece

Les noms de fichiers ne comportent pas forcément que des dates. Pour permettre au modèle de comprendre le reste, on segmente l'ensemble en unités de sens, par tokenisation. Dropbox a opté pour l'algorithme SentencePiece, qui met en oeuvre une approche intermédiaire entre le découpages par mot et par caractère.

Les tokens qui en résultent sont étiquetés sur la base des annotations réalisées en amont. On utilise le système dit « Inside-Outside-Beginning » : chaque token est labellisé en fonction de sa position dans une entité (B s'il se trouve au début ; O à la fin ; I entre les deux).

L'ultime étape consiste à prédire ces « tags IOB ». C'est là que le transformer DistilRoBERTa entre en jeu. Pruning (suppression des paramètres non nécessaires) et quantisation (conversion en semi-précision) ont permis d'éliminer deux des six couches du modèle initial sans impacter les performances et en atteignant un niveau de latence acceptable, assure Dropbox.

Pour accompagner la prise en main par les utilisateurs, Dropbox a fini par suggérer automatiquement des conventions d'appellation en fonction des fichiers déjà présents dans un dossier donné. Il envisage, à l'avenir, de pouvoir identifier d'autres éléments, tels que des noms de lieux ou d'organisations. Et n'exclut pas, à ces fins, d'employer des LLM.

Illustration © natanaelginting - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

#DROPBOX

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Comment Dropbox applique le machine learning au nommage des fichiers

Dropbox utilise DistilRoBERTa et SentencePiece

Avec o3 et o4-mini, OpenAI mise sur une chaîne de pensée multimodale

De France Travail à la RATP, les leçons du "bac à sable" IA de la CNIL

OpenAI met GPT-4.5 en retrait : que retenir de cette parenthèse ?

Gouvernance des communications : qui se distingue sur ce marché [...]

AWS Summit : le RAG, au carrefour des stratégies GenAI

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Cybersécurité et digitalisation Comment protéger les [...]

Leader des services de réponse à incident de cybersécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Dropbox utilise DistilRoBERTa et SentencePiece

S’abonner

Partager l'épisode