Резюме инцидента

Дата и время06.03.2026, 13:28–13:32 (UTC+3)

ПричинаМассовый разрыв WebSocket-соединений спровоцировал лавину переподключений, перегрузившую сервис

Уровень серьёзностиКритический

Продолжительность~35 секунд полной недоступности + хвост деградации до ~13:32

Пострадавшие системыВеб, Android, iOS — все платформы

Пострадавшие пользователи716 уникальных пользователей получили ошибки

Что произошло

6 марта 2026 в 13:28 МСК веб-клиенты Пачки одновременно потеряли WebSocket-соединение. Одновременное переподключение большого числа клиентов создало пиковую нагрузку, которая на короткое время превысила возможности инфраструктуры — пользователи видели ошибки. Система восстановилась самостоятельно через ~35 секунд.

Потери данных не произошло.

Мы приносим извинения за этот инцидент. Ниже — хронология, анализ причин и меры, которые мы принимаем.

Хронология

Все отметки времени — UTC+3.

~13:27 – Происходит массовый разрыв WebSocket-соединений.
13:28 – Начинается лавина переподключений. Нагрузка на балансировщик резко возрастает.
13:28:38 – Первые ошибки на стороне API — бэкенд не справляется с объёмом запросов.
13:29 – Пик нагрузки: балансировщик перегружен, часть запросов не доходит до бэкенда.
13:29:13 – Последние ошибки — API начинает восстанавливаться.
13:30 – Нагрузка на балансировщик возвращается к норме.
~13:32 – Система полностью восстановлена.

Цепочка причин

Почему сервис стал недоступен? — Инфраструктура не смогла обработать лавину одновременных запросов.
Что вызвало лавину? — Все веб-клиенты потеряли WebSocket-соединение одновременно и начали переподключаться.
Почему переподключение перегрузило систему? — Одновременное переподключение большого числа клиентов создало кратковременную, но критическую нагрузку на API.
Что вызвало начальный разрыв соединений? — Причина установлена, проводим дополнительный анализ.

Что сработало хорошо

Система восстановилась самостоятельно без ручного вмешательства.
Мобильные клиенты остались в основном подключены.
Мониторинг зафиксировал все метрики для ретроспективы.
Логи сохранили детальную картину ошибок.

Что пошло не так

Паттерн одновременного переподключения создал нагрузку, превышающую штатные параметры.
Мониторинг не зафиксировал аномалию на ранней стадии.

Что мы делаем, чтобы это не повторилось

Оптимизация переподключения. Улучшаем поведение клиентов при восстановлении соединения, чтобы снизить пиковую нагрузку.
Улучшение наблюдаемости. Усиливаем мониторинг для раннего обнаружения аномалий.
Повышение устойчивости инфраструктуры. Усиливаем защиту от пиковых нагрузок на уровне инфраструктуры.

Уроки

Инцидент показал, что одновременное переподключение большого числа клиентов может создать нагрузку, сопоставимую с внешней атакой. Мы усиливаем устойчивость системы к подобным сценариям.