Le PDG de Coinbase confirme la panne de refroidissement d'AWS et s'engage à examiner le compromis entre latence et résilience

Table des matières Coinbase a connu une panne d'échange majeure après la surchauffe d'une salle du centre de données AWS en raison de plusieurs pannes de refroidisseur. La perturbation a mis en évidence une tension structurelle dans l’architecture d’échange : le compromis entre faible latence et tolérance aux pannes. Le PDG Brian Armstrong a confirmé publiquement l'incident, notant que même si la plupart des systèmes Coinbase ont récupéré grâce à la redondance intégrée, ce n'est pas le cas de l'échange centralisé. L'entreprise s'est engagée à revoir son approche en matière d'infrastructure. La panne est due à une panne de refroidissement dans un centre de données AWS. Plusieurs refroidisseurs sont tombés en panne simultanément, provoquant une surchauffe d'une pièce et déclenchant une cascade d'interruptions de service. Coinbase avait conçu la plupart de ses systèmes pour résister aux pannes dans une seule zone de disponibilité AWS (AZ). Cette conception a été valable pour la majorité des services lors de l'incident. Cependant, l'échange centralisé était l'exception. Il n’a pas pu s’en remettre à cause de son architecture. Armstrong a abordé la situation directement sur X, écrivant que l'échange de la société dispose d'une « architecture unique qui optimise la latence et la colocalisation des clients ». Cette conception donne la priorité à la vitesse plutôt qu’à la résilience. Nous avons connu une panne chez Coinbase hier soir, ce qui n'est jamais acceptable. La cause première était une surchauffe d'une pièce dans un centre de données AWS lorsque plusieurs refroidisseurs tombaient en panne. Nous concevons nos services pour qu'ils soient redondants en cas de temps d'arrêt dans n'importe quelle zone de disponibilité AWS (AZ), et la plupart de nos systèmes… — Brian Armstrong (@brian_armstrong) 8 mai 2026 La colocalisation signifie que les systèmes clients sont placés physiquement à proximité du moteur de correspondance de l'échange. Cette proximité réduit les délais de négociation à quelques microsecondes. Pour les traders professionnels et institutionnels, une telle rapidité est une exigence concurrentielle et non une préférence. Le compromis, comme l’a reconnu Armstrong, est la vulnérabilité. Rendre un échange résilient aux pannes AZ est techniquement réalisable. Cependant, cela introduit une latence et interrompt les configurations de colocalisation dont dépendent les clients. C'est pourquoi de nombreuses bourses acceptent ce risque comme une décision calculée. Armstrong a utilisé l’incident comme une ouverture pour réévaluer ces compromis. Il a confirmé sur X : « Compte tenu de cet incident, nous reviendrons sur ces compromis pour nous assurer que nous vous offrons le meilleur lieu possible pour échanger. » Une autopsie technique détaillée est attendue une fois l’examen interne terminé. Il a également noté que la durée des futures pannes pourrait être considérablement réduite. Même si la résilience au niveau AZ reste trop coûteuse en termes de latence, des procédures de basculement plus rapides pourraient réduire les temps d'arrêt. Cela seul constituerait une amélioration significative pour les traders pris dans la prochaine perturbation. Les équipes AWS et Coinbase ont travaillé toute la nuit pour résoudre le problème. Armstrong a exprimé sa gratitude aux deux équipes pour leur réponse. L’effort de récupération collaborative souligne la dépendance opérationnelle que les échanges cryptographiques ont construite vis-à-vis des principaux fournisseurs de cloud. L’incident s’ajoute à une conversation plus large de l’industrie sur la fiabilité de l’infrastructure cryptographique. Les échanges centralisés restent des cibles attractives pour les perturbations, qu'il s'agisse de pannes matérielles, de cyberattaques ou d'augmentations de trafic. Pour Coinbase, la panne du refroidisseur AWS est désormais une étude de cas documentée sur le coût réel de l'optimisation de la vitesse avant tout.