Постмортем
Постмортем инцидента
Разбор причин и хронология технического сбоя 1 марта 2026 года.
Резюме инцидента
Дата и время01.03.2026 в 16:08
ПричинаОтключение инфраструктуры облачного провайдера из-за проблем с биллингом на стороне провайдера
Уровень серьезностиВысокий
Продолжительность11 мин полной недоступности + 58 мин частичной недоступности
Пострадавшие системыAPI-сервер, мобильные и компьютерные версии приложений
Пострадавшие пользователиВсе пользователи
Описание инцидента
Таймлайн разрешения инцидента:
- 16:04 – Зафиксирована недоступность сервиса системами мониторинга.
- 16:06 – Была установлена причина: недоступность облачных ресурсов провайдера.
- 16:08 – Получена информация от дежурных инженеров провайдера с подтверждением, что из-за проблем с биллингом произошло отключение ресурсов, регистрация инцидента.
- 16:10 – Получены первые обращения пользователей.
- 16:14 – Доступ к серверам со стороны провайдера восстановлен, началось восстановление сервиса.
- 16:19 – Работоспособность технических систем и мобильных приложений восстановлена. Зарегистрирована ошибка с восстановлением клиентской части компьютерных версий. Начата работа по поиску проблемы.
- 17:07 – Установлена проблема и начато устранение.
- 17:15 – Ошибка с восстановлением клиентской части компьютерных версий решена, постепенное восстановление доступности компьютерных версий.
- 17:17 – Производительность полностью восстановлена.
Выявленные причины инцидента:
- Облачный провайдер столкнулся с ошибкой платежного биллинга, что привело к отключению инфраструктуры.
- После восстановления доступа была обнаружена ошибка в клиентской части сервиса, которая не позволила восстановить доступ к компьютерным версиям в автоматическом режиме.
Принятые меры:
- Внесены дополнительные гарантийные условия с провайдером в случае проблем с биллингом.
- Исправлена ошибка в клиентской части компьютерных версий сервиса.
Извлечённые уроки и рекомендации:
- Обеспечить резервный механизм автоматического восстановления клиентской части компьютерных версий при перезапуске инфраструктуры.
- Добавить мониторинг статуса биллинга у облачного провайдера для раннего обнаружения потенциальных проблем.
