Comment Dropbox a repensé son architecture orientée services

Dropbox évoque quelques principes ayant guidé la refonte de son infrastructure asynchrone autour d'une approche orientée événements.

Publié par Clément Bohic le 14 mars 2025 | mis à jour à 18:09

Lecture
3 min

Imprimer

Disloquer un monolithe implique-t-il forcément d'en faire des services indépendants ?

Il y a quelques années, Dropbox s'était confronté à cette problématique. L'entreprise américaine avait opté pour une approche "hybride", à base de groupements logiques de routes et de standardisation sur gRPC, tout en apportant à ses devs l'essentiel des bénéfices d'une architecture orientée services. Elle avait donné un nom à cette démarche : Atlas.

Le socle établi dans ce cadre fournit aujourd'hui, entre autres, des fonctionnalités d'autoscaling et de rollback. Dropbox les évoque au sujet de travaux intervenus plus récemment. En l'occurrence, la refonte de son infrastructure asynchrone.

Des systèmes non alignés

Cette infrastructure comprenait de multiples systèmes, chacun adapté à des produits et/ou des processus spécifiques. Ils étaient développés, exploités et maintenus séparément. D'où des disparités dans la cadence de livraison et la fiabilité. Entre autres :

Courbe d'apprentissage pour les devs, tenus d'assurer diverses responsabilités ops, de la planification de capacité au support
SLO variables et absence de multi-homing
Efforts supplémentaires de maintenance, renforcés par l'utilisation de plusieurs solutions de gestion des files d'attente (Amazon SQS, Kafka, Redis)
Incapacité de montée en charge de certains composants comme le planificateur d'événements différés, d'où la nécessité de protocoles d'examen de chaque nouveau cas d'usage
Infra Lambda non alignée sur les bonnes pratiques internes en matière d'architecture orientée services (d'où l'absence d'autoscaling, mais aussi une sous-utilisation des clusters de compute)
Difficulté à élargir le pipeline de capture des données modifiées pour intégrer la distribution des événements Cypress

Trois objectifs, deux KPI

Quelque 400 use cases étant déjà couverts, il n'était pas envisageable de repartir de zéro. Pour aller vers une approche plus cohérente, il fut donc décidé d'une reconstruction itérative. Avec trois objectifs principaux :

Vélocité des déploiements (fluidification de l'adoption par les ingés produits et réduction de leur charge opérationnelle, mise à l'échelle automatique, etc.)
Robustesse et extensibilité (unification des patterns entre systèmes, intégration de use cases avec un minimum de modifications)
Coût et efficacité opérationnelle (élimination des systèmes redondants, passage de l'infra Lambda sur la stack SOA...)

Principaux KPI : temps de livraison (devs) et temps de garde (ops).

Dropbox ne traite qu'en surface de l'architecture qui en a résulté. Il évoque un modèle divisé en 5 couches logiques :

Front-end (qui valide les schémas des événements, en standardise les formats et en garantit la durabilité)
Planificateur (coordination et distribution des événements)
Contrôle de flux (distribution des tâches, gestion d'état)
Livraison (routage vers les fonctions Lambda avec gestion de concurrence)
Exécution (par Lambda ou processus distants)

Dropbox

Illustration principale générée par IA

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Comment Dropbox a repensé son architecture orientée services

Des systèmes non alignés

Trois objectifs, deux KPI

Google Cloud Next '25 : l'inférence, maître mot des annonces infra

Health Data Hub : le gouvernement promet un appel d'offres pour [...]

"Nous avons quitté le cloud" : S3, ultime étape d'un retour sur site

50 ans de Microsoft : les sept vies de l'inventeur de Windows

OUTSCALE lance son Kubernetes managé : ce qu'il y a pour commencer

S’abonner

FFTO : Fiber To The Office ou la haute disponibilité [...]

L'UHD et la Transformation Numérique : Répondre aux [...]

Cybersécurité et digitalisation Comment protéger les [...]

Leader des services de réponse à incident de cybersécurité

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Des systèmes non alignés

Trois objectifs, deux KPI

S’abonner

Partager l'épisode