Постмортем
Инцидент с доступностью сервиса 6 марта 2026
Разбор причин и хронология инцидента с недоступностью сервиса 6 марта 2026 года.
Резюме инцидента
Дата и время06.03.2026, 13:28–13:32 (UTC+3)
ПричинаМассовый разрыв WebSocket-соединений спровоцировал лавину переподключений, перегрузившую сервис
Уровень серьёзностиКритический
Продолжительность~35 секунд полной недоступности + хвост деградации до ~13:32
Пострадавшие системыВеб, Android, iOS — все платформы
Пострадавшие пользователи716 уникальных пользователей получили ошибки
Что произошло
6 марта 2026 в 13:28 МСК веб-клиенты Пачки одновременно потеряли WebSocket-соединение. Одновременное переподключение большого числа клиентов создало пиковую нагрузку, которая на короткое время превысила возможности инфраструктуры — пользователи видели ошибки. Система восстановилась самостоятельно через ~35 секунд.
Потери данных не произошло.
Мы приносим извинения за этот инцидент. Ниже — хронология, анализ причин и меры, которые мы принимаем.
Хронология
Все отметки времени — UTC+3.
- ~13:27 – Происходит массовый разрыв WebSocket-соединений.
- 13:28 – Начинается лавина переподключений. Нагрузка на балансировщик резко возрастает.
- 13:28:38 – Первые ошибки на стороне API — бэкенд не справляется с объёмом запросов.
- 13:29 – Пик нагрузки: балансировщик перегружен, часть запросов не доходит до бэкенда.
- 13:29:13 – Последние ошибки — API начинает восстанавливаться.
- 13:30 – Нагрузка на балансировщик возвращается к норме.
- ~13:32 – Система полностью восстановлена.
Цепочка причин
- Почему сервис стал недоступен? — Инфраструктура не смогла обработать лавину одновременных запросов.
- Что вызвало лавину? — Все веб-клиенты потеряли WebSocket-соединение одновременно и начали переподключаться.
- Почему переподключение перегрузило систему? — Одновременное переподключение большого числа клиентов создало кратковременную, но критическую нагрузку на API.
- Что вызвало начальный разрыв соединений? — Причина установлена, проводим дополнительный анализ.
Что сработало хорошо
- Система восстановилась самостоятельно без ручного вмешательства.
- Мобильные клиенты остались в основном подключены.
- Мониторинг зафиксировал все метрики для ретроспективы.
- Логи сохранили детальную картину ошибок.
Что пошло не так
- Паттерн одновременного переподключения создал нагрузку, превышающую штатные параметры.
- Мониторинг не зафиксировал аномалию на ранней стадии.
Что мы делаем, чтобы это не повторилось
- Оптимизация переподключения. Улучшаем поведение клиентов при восстановлении соединения, чтобы снизить пиковую нагрузку.
- Улучшение наблюдаемости. Усиливаем мониторинг для раннего обнаружения аномалий.
- Повышение устойчивости инфраструктуры. Усиливаем защиту от пиковых нагрузок на уровне инфраструктуры.
Уроки
Инцидент показал, что одновременное переподключение большого числа клиентов может создать нагрузку, сопоставимую с внешней атакой. Мы усиливаем устойчивость системы к подобным сценариям.
