Яндекс.Метрика
Постмортем

Инцидент с доступностью сервиса 6 марта 2026

Разбор причин и хронология инцидента с недоступностью сервиса 6 марта 2026 года.

Резюме инцидента

Дата и время06.03.2026, 13:28–13:32 (UTC+3)
ПричинаМассовый разрыв WebSocket-соединений спровоцировал лавину переподключений, перегрузившую сервис
Уровень серьёзностиКритический
Продолжительность~35 секунд полной недоступности + хвост деградации до ~13:32
Пострадавшие системыВеб, Android, iOS — все платформы
Пострадавшие пользователи716 уникальных пользователей получили ошибки

Что произошло

6 марта 2026 в 13:28 МСК веб-клиенты Пачки одновременно потеряли WebSocket-соединение. Одновременное переподключение большого числа клиентов создало пиковую нагрузку, которая на короткое время превысила возможности инфраструктуры — пользователи видели ошибки. Система восстановилась самостоятельно через ~35 секунд.

Потери данных не произошло.

Мы приносим извинения за этот инцидент. Ниже — хронология, анализ причин и меры, которые мы принимаем.


Хронология

Все отметки времени — UTC+3.

  • ~13:27 – Происходит массовый разрыв WebSocket-соединений.
  • 13:28 – Начинается лавина переподключений. Нагрузка на балансировщик резко возрастает.
  • 13:28:38 – Первые ошибки на стороне API — бэкенд не справляется с объёмом запросов.
  • 13:29 – Пик нагрузки: балансировщик перегружен, часть запросов не доходит до бэкенда.
  • 13:29:13 – Последние ошибки — API начинает восстанавливаться.
  • 13:30 – Нагрузка на балансировщик возвращается к норме.
  • ~13:32 – Система полностью восстановлена.

Цепочка причин

  1. Почему сервис стал недоступен? — Инфраструктура не смогла обработать лавину одновременных запросов.
  2. Что вызвало лавину? — Все веб-клиенты потеряли WebSocket-соединение одновременно и начали переподключаться.
  3. Почему переподключение перегрузило систему? — Одновременное переподключение большого числа клиентов создало кратковременную, но критическую нагрузку на API.
  4. Что вызвало начальный разрыв соединений? — Причина установлена, проводим дополнительный анализ.

Что сработало хорошо

  • Система восстановилась самостоятельно без ручного вмешательства.
  • Мобильные клиенты остались в основном подключены.
  • Мониторинг зафиксировал все метрики для ретроспективы.
  • Логи сохранили детальную картину ошибок.

Что пошло не так

  • Паттерн одновременного переподключения создал нагрузку, превышающую штатные параметры.
  • Мониторинг не зафиксировал аномалию на ранней стадии.

Что мы делаем, чтобы это не повторилось

  • Оптимизация переподключения. Улучшаем поведение клиентов при восстановлении соединения, чтобы снизить пиковую нагрузку.
  • Улучшение наблюдаемости. Усиливаем мониторинг для раннего обнаружения аномалий.
  • Повышение устойчивости инфраструктуры. Усиливаем защиту от пиковых нагрузок на уровне инфраструктуры.

Уроки

Инцидент показал, что одновременное переподключение большого числа клиентов может создать нагрузку, сопоставимую с внешней атакой. Мы усиливаем устойчивость системы к подобным сценариям.