Comment Delivery Hero a optimisé ses coûts Kubernetes

Du l’autoscaling au bin packing, Delivery Hero a optimisé l’infrastructure Kubernetes soutenant ses services de recherche et de recommandation.

Publié par Clément Bohic le 6 févr. 2024 - mis à jour à 15:15

Lecture
3 min

Imprimer

Comment optimiser les coûts d’une infrastructure cloud ? Par exemple, en optant pour des instances spot, en sélectionnant la région au meilleur rapport prix/performance, en dimensionnant bien ses applications et en optimisant l’allocation des ressources.

Autant d’ingrédients de base que Delivery Hero a appliqués au déploiement GKE (Google Kubernetes Engine) qui porte ses services de recherche et de recommandation. L’API fournie dans ce cadre gère la répartition de charge et le basculement automatique. Dans chaque zone géographique servie, elle est disponibles sur deux régions cloud à trois zones chacune. L’objectif : pouvoir tuer à tout moment les pods dans lesquelles elles s’exécutent sans perturber le système.

Le déploiement reposait initialement sur des instances N1, à base de processeurs Intel. Pour les remplacer, Delivery Hero a examiné trois types de machines à usage général : les N2, N2D et T2D. Principales différences par rapport aux N1 : les types de processeurs et les ratios vCPU/mémoire. Les tests de charge ont démontré qu’on pouvait, avec cette nouvelle génération de VM, obtenir le même résultat en consommant 35 à 45 % moins de CPU.

Pour ce qui est du choix des régions cloud, Delivery Hero a analysé trois éléments en particulier : la latence, la disponibilité des machines et leur coût. Il a restreint ses tests de charge dans les régions qui lui paraissaient les plus appropriées en fonction de l’emplacement des clients et des dépendances amont/aval.
Le simulateur de coût Google Cloud a quant à lui fait apparaître de nettes différences entre régions pour les VM N2D. La même configuration (n2d-standard-8) revenait à 73,06 $ HT par mois en eu-west3 (Francfort), contre 27,42 $ en eu-west4 (Pays-Bas).
Les VM T2D étaient pour leur part disponibles dans moins de régions que les N2D. Et celles où elles l’étaient affichaient des prix élevés.

Delivery Hero relève son seuil d’autoscaling

Les performances CPU accrues des VM N2D par rapport aux N1 ont permis de faire évoluer plusieurs paramètres de dimensionnement des apps. D’une part, chaque pod peut ne réserver qu’un thread au lieu des deux demandés jusqu’alors. De l’autre, on a pu relever le seuil d’autoscaling à 50 % d’usage processeur, contre 35 % auparavant. En parallèle, la quantité de RAM par pod a été réduite de 6 à 4 Go.

Les VM n2d-standard-8 disposent de 8 vCPU et de 32 Go de RAM. Delivery Hero a ainsi pu loger 7 pods par nœud, en tenant compte des ressources non allouables. Il en a profité pour supprimer le pod de réserve qu’il exploitait sur les N1.

L’infrastructure de départ comportait deux clusters en VM N1, avec trafic réparti à 50/50. On a d’abord ajouté un troisième cluster, en N2D (couleur rose ci-dessous). Puis on y a progressivement transféré le trafic d’un des clusters N1 (celui en violet). On a ensuite remplacé les VM du cluster N1 restant (en bleu) par des N2D. Puis basculé le trafic vers le cluster violet. Les coûts ont évolué comme suit :

Illustration principale © LuckyStep – Adobe Stock

Publié par :
Clément Bohic

Tags associés :

#KUBERNETES

sponsorisé

Gestion de crises : les leçons d’un DSI

Gestion de crises : les leçons d’un DSI17:35

SNCF Connect & Tech explore toutes les voies de la rés…23:13

D'une mine à la supply chain, de l'OT à l’industrie 4.…22:33

Champs d'application et exigences NIS220:52

Retour d'expérience : mise en œuvre des exigences par…20:42

Comment simplifier la sécurisation de votre réseau tou…20:23

Sécurité renforcée : comment préparer la conformité à…20:56

Le savoir-faire règlementaire international de Cloudfl…20:32

Se protéger et remédier aux Attaques de Messagerie : U…21:48

[Episode en public] Les leçons de résilience d’OVH29:04

[Énergie] La résilience du réseau et sa mesure d'impact19:43

SASE : La fusion du SD-WAN et du SSE décryptée07:42

Quand la cyber-résilience investit l’espace16:31

Sécurité Multicouche : La clé pour une entreprise rési…16:11

Remettre l’humain au centre du cyber-espace16:55

L’IA, super-pouvoir du cyberespace09:39

Les enjeux de sécurité des médias internationaux de la…14:32

L’IA, un atout pour une continuité de service public p…16:50

Une cyber-résilience à l’aune de l’IA et des régulatio…19:25

Tous les Internets se valent-ils ?10:59

Decathlon : une culture agile à l’international20:08

Comment Carrefour a transformé la crise sanitaire en t…12:48

Comment Groupama s’assure d’être résilient face aux cr…13:48

Comment impulser une culture data dans une grande entr…14:17

Hors-série : La data du futur (Volume 1)08:28

Cegid : la tête dans le Cloud22:16

Hors-série : La data du futur (Volume 2)07:30

La data au service des verres intelligents chez Essilo…09:42

La vision conseil de Deloitte sur la data et l’IA19:04

Data altruisme et IA responsable au Crédit Mutuel Arkéa11:54

[BONUS] La Data Responsable : une vision écologique23:08

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Comment Delivery Hero a optimisé ses coûts Kubernetes

Delivery Hero relève son seuil d’autoscaling

Pourquoi OpenStack rejoint la Fondation Linux

Comment Dropbox a repensé son architecture orientée services

VMware, pari gagné pour Broadcom ?

Une entreprise française sur deux dépasse son budget Cloud

L'EU Data Boundary de Microsoft reste en construction

S’abonner

La meilleure liste de contrôle de Sécurité du code au cloud

VSP One Block, la simplification de la gestion des [...]

Le grand dîner de Gala de la Communauté

La Matinale Silicon - Zéro Trust

La MasterClass Silicon - NIS2

Silicon.fr L'actualité informatique et high-tech pour décideurs IT

Delivery Hero relève son seuil d’autoscaling

S’abonner

Partager l'épisode