Comment Amazon a géré la pénurie de GPU
Des documents internes obtenus par Business Insider révèlent comment le groupe de Jeff Bezos a réagi à la pénurie de GPU avec la mise en place d'une plateforme destinée à les répartir entre les équipes.

En 2024, Amazon s'est retrouvé confronté à une pénurie critique de processeurs graphiques (GPU) qui menaçaient le développement de ses projets IA, en particulier dans sa division retail qui regroupe le site de commerce électronique et les opérations logistiques du groupe.
En décembre de la même année, la pénurie avait atteint un pic : plus de 1 000 instances AWS P5 contenant jusqu'à huit GPU Nvidia H100 manquent à l'appel. Les prévisions internes ne tablaient alors que sur une amélioration progressive courant 2025.
Des documents internes obtenus par Business Insider révèlent comment le groupe de Jeff Bezos a réagi avec la mise en place du Project Greenland, une plateforme destinée à répartir les GPU entre les équipes. Objectif : maximiser leur utilisation, éviter les silos et les réaffecter en cas de sous-utilisation.
Lire aussi : De Llama 3 à Llama 4 : ce qui change, ce qui reste
Lancé en juillet 2024, le Project Greenland repose sur une méthodologie stricte. Toute demande interne de GPU doit désormais s'accompagner d'un justificatif chiffré de retour sur investissement (ROI). Chaque projet est évalué et priorisé en fonction de critères précis : maturité de l'initiative, potentiel de rentabilité par GPU, et caractère « prêt à démarrer ».
Une répartition qui privilégie le ROI
Selon un des documents consultés, les GPU sont considérés comme trop précieux pour être attribués selon le principe du "premier arrivé, premier servi". Ils doivent être utilisés en priorité pour les projets les plus susceptibles de générer une croissance du cash flow à long terme, en d'autres termes soigner la trésorerie.
Un principe de gouvernance soutenu par huit "tenets" (voir encadré), des principes internes qui doivent décider de la distribution. encadrant la distribution de GPU.
L'effort d'Amazon ne s'est pas limité à la gestion de crise. La division retail a engagé plus de 160 projets alimentés par l'IA pour un investissement d'un milliard de dollars, d'après les documents, parmi lesquels un assistant d'achat, un générateur d'images produit ou encore un outil de lutte automatisée contre la fraude chez les vendeurs tiers.
Amazon estime que cet investissement a contribué à hauteur de 2,5 milliards $ à son résultat opérationnel, avec 670 millions $ d'économies sur les coûts variables. Pour 2025, la division retail prévoit d'investir environ 1 milliard $ supplémentaire dans des projets IA et 5,7 milliards $ au total dans l'infrastructure cloud AWS (contre 4,5 milliards en 2024).
Lire aussi : Trois cas d'usage de l'IA à la Cour de cassation
En parallèle, l'adoption des puces Trainium développées en interne est censée prendre le relais, avec une montée en puissance attendue d'ici la fin 2025.
Amazon confirme à Business Insider que ses équipes retail ont désormais pleinement accès aux GPU via AWS. « Nous avons la capacité nécessaire pour continuer à innover », assure un porte-parole.
Les 8 "tenets" pour une gouvernance GPU
ROI + jugement éclairé, au-dessus du simple ordre de demande.
Amélioration continue, à partir du retour d'expérience.
Centralisation des décisions, pour éviter les duplications.
Vitesse d'exécution, grâce à des outils évolutifs.
Efficacité au service de l'innovation.
Tolérance au risque, pour encourager l'expérimentation.
Transparence (sélective) sur les règles et résultats.
Rappel des GPU, si une autre initiative apporte plus de valeur.
Source : Business insider
Sur le même thème
Voir tous les articles Business