Der CEO von Coinbase bestätigt den Ausfall der AWS-Kühlungsstörung an der Börse und verspricht eine Überprüfung des Kompromisses zwischen Latenz und Belastbarkeit

Inhaltsverzeichnis Bei Coinbase kam es zu einem größeren Börsenausfall, nachdem ein AWS-Rechenzentrumsraum aufgrund mehrerer Kühlausfälle überhitzt war. Die Störung offenbarte eine strukturelle Spannung in der Börsenarchitektur – den Kompromiss zwischen geringer Latenz und Fehlertoleranz. CEO Brian Armstrong bestätigte den Vorfall öffentlich und stellte fest, dass sich die meisten Coinbase-Systeme zwar durch integrierte Redundanz erholten, die zentralisierte Börse jedoch nicht. Das Unternehmen hat zugesagt, seinen Infrastrukturansatz zu überprüfen. Der Ausfall war auf einen Kühlfehler in einem AWS-Rechenzentrum zurückzuführen. Mehrere Kältemaschinen fielen gleichzeitig aus, was zu einer Überhitzung eines Raums und einer Kaskade von Betriebsunterbrechungen führte. Coinbase hatte die meisten seiner Systeme so konzipiert, dass sie Ausfällen in einer einzigen AWS Availability Zone (AZ) standhalten. Dieses Design galt während des Vorfalls für die meisten Dienste. Der zentralisierte Austausch war jedoch die Ausnahme. Aufgrund der Architektur konnte die Wiederherstellung nicht durchgeführt werden. Armstrong ging auf X direkt auf die Situation ein und schrieb, dass die Börse des Unternehmens über eine „einzigartige Architektur verfügt, die die Latenz und den gemeinsamen Standort von Kunden optimiert“. Bei diesem Design steht Geschwindigkeit vor Belastbarkeit. Gestern Abend kam es bei Coinbase zu einem Ausfall, der niemals akzeptabel ist. Die Hauptursache war eine Raumüberhitzung in einem AWS-Rechenzentrum, als mehrere Kühler ausfielen. Wir gestalten unsere Services so, dass Ausfallzeiten in jeder AWS Availability Zone (AZ) und den meisten unserer Systeme überflüssig sind … – Brian Armstrong (@brian_armstrong) 8. Mai 2026 Co-Location bedeutet, dass Client-Systeme physisch in der Nähe der Matching-Engine der Börse platziert werden. Diese Nähe reduziert Handelsverzögerungen auf Mikrosekunden. Für professionelle und institutionelle Händler ist eine solche Geschwindigkeit eine Wettbewerbsanforderung und keine Präferenz. Der Kompromiss besteht, wie Armstrong einräumte, in der Verwundbarkeit. Es ist technisch machbar, einen Austausch gegenüber AZ-Ausfällen widerstandsfähig zu machen. Allerdings führt dies zu Latenz und unterbricht Co-Location-Setups, auf die Clients angewiesen sind. Deshalb nehmen viele Börsen dieses Risiko als kalkulierte Entscheidung in Kauf. Armstrong nutzte den Vorfall als Anlass, diese Kompromisse neu zu bewerten. Er bestätigte auf X: „Angesichts dieses Vorfalls werden wir diese Kompromisse noch einmal prüfen, um sicherzustellen, dass wir Ihnen den bestmöglichen Handelsplatz bieten.“ Eine detaillierte technische Obduktion wird erwartet, sobald die interne Überprüfung abgeschlossen ist. Er wies auch darauf hin, dass die Dauer zukünftiger Ausfälle erheblich verkürzt werden könnte. Auch wenn die Ausfallsicherheit auf AZ-Ebene im Hinblick auf die Latenz weiterhin zu kostspielig ist, könnten schnellere Failover-Verfahren die Ausfallzeit verkürzen. Das allein wäre eine sinnvolle Verbesserung für Händler, die von der nächsten Störung betroffen sind. Die Teams von AWS und Coinbase haben die ganze Nacht daran gearbeitet, das Problem zu lösen. Armstrong bedankte sich bei beiden Teams für ihre Reaktion. Die gemeinsamen Wiederherstellungsbemühungen weisen auf die betriebliche Abhängigkeit hin, die Krypto-Börsen von großen Cloud-Anbietern aufgebaut haben. Der Vorfall trägt zu einer breiteren Branchendiskussion über die Zuverlässigkeit der Krypto-Infrastruktur bei. Zentralisierte Börsen bleiben ein attraktives Ziel für Störungen, sei es durch Hardwareausfälle, Cyberangriffe oder Verkehrsanstiege. Für Coinbase ist der Ausfall des AWS-Kühlers nun eine dokumentierte Fallstudie über die tatsächlichen Kosten der Optimierung vor allem auf Geschwindigkeit.