Генеральный директор Coinbase подтверждает сбой в системе охлаждения AWS и обещает обзор компромисса между задержками и устойчивостью

Оглавление В Coinbase произошел серьезный сбой в обмене после того, как помещение центра обработки данных AWS перегрелось из-за многочисленных сбоев чиллера. Сбой выявил структурное напряжение в архитектуре обмена — компромисс между низкой задержкой и отказоустойчивостью. Генеральный директор Брайан Армстронг публично подтвердил инцидент, отметив, что, хотя большинство систем Coinbase восстановились благодаря встроенному резервированию, централизованная биржа этого не сделала. Компания пообещала пересмотреть свой инфраструктурный подход. Отключение произошло из-за сбоя охлаждения в центре обработки данных AWS. Несколько чиллеров вышли из строя одновременно, что привело к перегреву помещения и каскаду сбоев в обслуживании. Coinbase спроектировала большинство своих систем так, чтобы они выдерживали сбои в одной зоне доступности AWS (AZ). Такая схема сохранялась для большинства служб во время инцидента. Однако централизованная биржа была исключением. Его не удалось восстановить из-за особенностей его архитектуры. Армстронг обратился к ситуации непосредственно на X, написав, что биржа компании имеет «уникальную архитектуру, которая оптимизирует задержки и совместное размещение клиентов». В этой конструкции приоритет отдается скорости, а не устойчивости. Вчера вечером у нас произошел сбой в работе Coinbase, что неприемлемо. Основной причиной стал перегрев помещения в центре обработки данных AWS из-за отказа нескольких чиллеров. Мы проектируем наши сервисы так, чтобы они были избыточными во время простоев в любой зоне доступности AWS (AZ) и большинстве наших систем… — Брайан Армстронг (@brian_armstrong) 8 мая 2026 г. Совместное размещение означает, что клиентские системы размещаются физически близко к соответствующему механизму биржи. Такая близость сокращает торговые задержки до микросекунд. Для профессиональных и институциональных трейдеров такая скорость является конкурентным требованием, а не предпочтением. Компромиссом, как признал Армстронг, является уязвимость. Сделать обмен устойчивым к сбоям АЗ технически достижимо. Однако это приводит к задержкам и нарушает настройки совместного размещения, от которых зависят клиенты. Вот почему многие биржи принимают этот риск как обдуманное решение. Армстронг использовал этот инцидент как возможность переоценить эти компромиссы. Он подтвердил на X: «Учитывая этот инцидент, мы вернемся к этим компромиссам, чтобы гарантировать, что мы предоставляем вам наилучшее место для торговли». Подробное техническое вскрытие ожидается после завершения внутренней проверки. Он также отметил, что продолжительность будущих отключений может быть существенно сокращена. Даже если устойчивость на уровне зоны доступности останется слишком дорогостоящей с точки зрения задержек, более быстрые процедуры аварийного переключения могут сократить время простоя. Уже одно это было бы значимым улучшением для трейдеров, оказавшихся в ситуации следующего сбоя. Команды AWS и Coinbase всю ночь работали над решением проблемы. Армстронг выразил благодарность обеим командам за их ответ. Совместные усилия по восстановлению указывают на операционную зависимость криптобирж от крупных облачных провайдеров. Инцидент дополняет более широкую дискуссию в отрасли о надежности криптоинфраструктуры. Централизованные биржи остаются привлекательными объектами сбоев, будь то сбои оборудования, кибератаки или скачки трафика. Для Coinbase отказ чиллера AWS теперь является задокументированным примером реальной стоимости оптимизации скорости превыше всего.