Яндекс.Метрика
Постмортем

Постмортем инцидента

Разбор причин и хронология технического сбоя 1 марта 2026 года.

Резюме инцидента

Дата и время01.03.2026 в 16:08
ПричинаОтключение инфраструктуры облачного провайдера из-за проблем с биллингом на стороне провайдера
Уровень серьезностиВысокий
Продолжительность11 мин полной недоступности + 58 мин частичной недоступности
Пострадавшие системыAPI-сервер, мобильные и компьютерные версии приложений
Пострадавшие пользователиВсе пользователи

Описание инцидента

Таймлайн разрешения инцидента:

  • 16:04 – Зафиксирована недоступность сервиса системами мониторинга.
  • 16:06 – Была установлена причина: недоступность облачных ресурсов провайдера.
  • 16:08 – Получена информация от дежурных инженеров провайдера с подтверждением, что из-за проблем с биллингом произошло отключение ресурсов, регистрация инцидента.
  • 16:10 – Получены первые обращения пользователей.
  • 16:14 – Доступ к серверам со стороны провайдера восстановлен, началось восстановление сервиса.
  • 16:19 – Работоспособность технических систем и мобильных приложений восстановлена. Зарегистрирована ошибка с восстановлением клиентской части компьютерных версий. Начата работа по поиску проблемы.
  • 17:07 – Установлена проблема и начато устранение.
  • 17:15 – Ошибка с восстановлением клиентской части компьютерных версий решена, постепенное восстановление доступности компьютерных версий.
  • 17:17 – Производительность полностью восстановлена.

Выявленные причины инцидента:

  • Облачный провайдер столкнулся с ошибкой платежного биллинга, что привело к отключению инфраструктуры.
  • После восстановления доступа была обнаружена ошибка в клиентской части сервиса, которая не позволила восстановить доступ к компьютерным версиям в автоматическом режиме.

Принятые меры:

  • Внесены дополнительные гарантийные условия с провайдером в случае проблем с биллингом.
  • Исправлена ошибка в клиентской части компьютерных версий сервиса.

Извлечённые уроки и рекомендации:

  1. Обеспечить резервный механизм автоматического восстановления клиентской части компьютерных версий при перезапуске инфраструктуры.
  2. Добавить мониторинг статуса биллинга у облачного провайдера для раннего обнаружения потенциальных проблем.