Coinbase 首席执行官确认 AWS 冷却故障导致交易所瘫痪,并承诺进行延迟-弹性权衡审查

由于多个冷却器故障,AWS 数据中心机房过热,Coinbase 经历了一次严重的交易中断。这次中断暴露了交换架构中的结构性紧张——低延迟和容错之间的权衡。首席执行官布莱恩·阿姆斯特朗 (Brian Armstrong) 公开证实了这一事件,并指出,虽然大多数 Coinbase 系统通过内置冗余恢复了,但中心化交易所却没有。该公司已承诺审查其基础设施方法。这次中断是由于 AWS 数据中心内的冷却故障造成的。多个冷水机组同时发生故障,导致房间过热并引发一系列服务中断。 Coinbase 设计的大部分系统都能承受单个 AWS 可用区 (AZ) 中的故障。该设计适用于事件期间的大多数服务。然而,中心化交易所是个例外。由于其架构方式,它未能恢复。阿姆斯特朗直接在 X 上解决了这一问题,并写道,该公司的交易所拥有“独特的架构,可以优化延迟和客户端共置”。这种设计优先考虑速度而不是弹性。昨晚我们在 Coinbase 经历了一次宕机,这是绝对不能接受的。根本原因是当多个冷却器发生故障时,AWS 数据中心的房间过热。我们将服务设计为在任何一个 AWS 可用区 (AZ) 和我们的大多数系统中都不会出现停机情况...... — Brian Armstrong (@brian_armstrong) 2026 年 5 月 8 日 共置意味着客户端系统在物理上靠近交易所的匹配引擎。这种接近性将交易延迟减少到微秒。对于专业和机构交易者来说,这样的速度是一种竞争要求,而不是偏好。正如阿姆斯特朗所承认的,这种权衡就是脆弱性。使交易所能够适应可用区故障在技术上是可以实现的。但是,这样做会引入延迟并破坏客户端所依赖的主机托管设置。这就是为什么许多交易所接受这种风险作为经过深思熟虑的决定。阿姆斯特朗利用这一事件作为重新评估这些权衡的契机。他在 X 上证实:“鉴于这一事件,我们将重新审视这些权衡,以确保为您提供最佳的交易场所。”内部审查完成后,预计将进行详细的技术事后分析。他还指出,未来的停电持续时间可能会大大缩短。即使可用区级别的恢复能力在延迟方面仍然成本过高,更快的故障转移过程也可以缩短停机时间。对于陷入下一次混乱的交易者来说,仅此一项就将是一次有意义的升级。 AWS 和 Coinbase 团队通宵达旦地解决了这个问题。阿姆斯特朗对两个团队的回应表示感谢。协作恢复工作表明加密货币交易所对主要云提供商的运营依赖。该事件增加了有关加密基础设施可靠性的更广泛的行业对话。无论是硬件故障、网络攻击还是流量激增,中心化交易所仍然是有吸引力的破坏目标。对于 Coinbase 来说,AWS 冷却器故障现已成为记录在案的案例研究,说明优化速度高于一切的实际成本。