Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Comment Dropbox applique le machine learning au nommage des fichiers

Dropbox relate son passage d'un moteur de règles à du machine learning pour l'identification de dates dans les noms de fichiers.

Publié par Clément Bohic le 3 oct. 2023 - mis à jour à 18:06

Lecture
3 min

Imprimer

Détecter des dates dans des noms de fichiers ? Il y a DistilRoBERTa pour ça. Dropbox a en tout cas choisi cette option pour alimenter la définition de conventions d'appellation.

Cette fonctionnalité est disponible depuis fin 2021 sur la version web et l'application de bureau. Elle permet de renommer automatiquement les éléments déposés dans un dossier en fonction de règles qu'on aura définies au préalable.

Ces règles peuvent consister en l'ajout de mots-clés, l'inclusion du dossier parent ou l'insertion de métadonnées. On peut aussi inclure la date d'importation.

L'option « Date d'importation » permet de « remplacer les dates existantes détectées dans les noms de fichiers ». À l'origine, cela reposait sur un moteur à base de règles.

Face aux insuffisances de cette approche, Dropbox a formé un modèle d'apprentissage automatique. Et l'a mis en service en août 2022. À la clé, affirme-t-il, une augmentation de 40 % du nombre de fichiers renommés.

L'entreprise a eu recours à de l'apprentissage supervisé. Elle a conçu un jeu de données réunissant quelques milliers de noms de fichiers annotés - avec Doccano - afin de préciser la position des dates. Le développement d'un générateur de données synthétiques a permis de limiter le travail manuel.

Dropbox utilise DistilRoBERTa et SentencePiece

Les noms de fichiers ne comportent pas forcément que des dates. Pour permettre au modèle de comprendre le reste, on segmente l'ensemble en unités de sens, par tokenisation. Dropbox a opté pour l'algorithme SentencePiece, qui met en oeuvre une approche intermédiaire entre le découpages par mot et par caractère.

Les tokens qui en résultent sont étiquetés sur la base des annotations réalisées en amont. On utilise le système dit « Inside-Outside-Beginning » : chaque token est labellisé en fonction de sa position dans une entité (B s'il se trouve au début ; O à la fin ; I entre les deux).

L'ultime étape consiste à prédire ces « tags IOB ». C'est là que le transformer DistilRoBERTa entre en jeu. Pruning (suppression des paramètres non nécessaires) et quantisation (conversion en semi-précision) ont permis d'éliminer deux des six couches du modèle initial sans impacter les performances et en atteignant un niveau de latence acceptable, assure Dropbox.

Pour accompagner la prise en main par les utilisateurs, Dropbox a fini par suggérer automatiquement des conventions d'appellation en fonction des fichiers déjà présents dans un dossier donné. Il envisage, à l'avenir, de pouvoir identifier d'autres éléments, tels que des noms de lieux ou d'organisations. Et n'exclut pas, à ces fins, d'employer des LLM.

Illustration © natanaelginting - Adobe Stock

Publié par :
Clément Bohic

Tags associés :

#DROPBOX

Alphabet x Anthropic : pas de fusion pour l'autorité [...]

Par La rédaction le 21 nov. 2024

Data Privacy Framework : un an après, les États-Unis invités à [...]

Par Clément Bohic le 19 nov. 2024

{ Tribune Expert } - Grands modèles de langage (LLM), la menace [...]

Par Shaked Reiner * le 18 nov. 2024

AI Act : l'UE à la recherche de cas pratiques

Par Clément Bohic le 18 nov. 2024

Spécialisation des LLM : LoRA, une forme d'illusion ?

Par Clément Bohic le 15 nov. 2024

Abonnez-vous à Silicon Magazine !

Recevez le magazine chez vous ou sur votre lieu de travail et accédez à la version numérique à tout moment !

à partir de 120€ par an pour 1 an d'abonnement

J'en profite

Livres Blancs #cloud

Checkmarx

La meilleure liste de contrôle de Sécurité du code au cloud

Changement de l'impact et du rôle des applications cloud. Qu'est-ce que le Code to Cloud ? Le Code to Cloud [...]

Télécharger

Hitachi

VSP One Block, la simplification de la gestion des [...]

Découvrez comment VSP One Block d'Hitachi Vantara optimise le stockage, réduit l’énergie et renforce la sécurité [...]

Télécharger

Elastic

Le guide de l'observabilité moderne : considérations, [...]

Le parcours vers l’observabilité est plus important que jamais pour les entreprises [...]

Télécharger

IONOS

Sécurité, personnalisation, expertise : la triple [...]

Depuis plus de 30 ans, IONOS a développé une expérience unique et s’impose désormais comme un acteur Cloud de [...]

Télécharger

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

7 novembre 2024

La MasterClass Silicon - NIS2

Organisé par silicon.fr

Inscrivez-vous

4 juillet 2024

La Matinale Silicon : IA & Cybersécurité

Organisé par Silicon

Voir le replay

29 mai 2024

Le grand dîner de gala de la Communauté

Organisé par Silicon

Revivre en images

Voir tous les événements

Inscrivez-vous à la Newsletter pour recevoir les dernières actualités

Abonnez-vous au magazine Silicon et profitez de contenus exclusifs !

Boostez votre expertise professionnelle en accédant aux informations clés de votre domaine.