Классификация инцидентов и мониторинг состояния системы
Назначение
Инструкция описывает порядок действий дежурных администраторов при возникновении инцидентов в системе Принтум и связанных компонентах. Основана на отказоустойчивой архитектуре системы и процессах мониторинга.
Классификация инцидентов
События уровня инфраструктуры
- Нет связи с сервером Мониторинга, ПринтМенеджера, HAProxy (не удаётся зайти в Личный кабинет, панели администратора);
- События связаны с ресурсами ВМ;
- Ошибки доступа к БД;
- Недоступность NFS или stunnel;
- Ошибки сети.
События уровня сервисов Принтум
- Не работает печать;
- Отсутствуют задания в очереди;
- Постоянный перезапуск контейнеров;
- В приложении на МФУ ошибка: «Сервер ПринтМенеджера недоступен».
Обнаружение инцидента
Обнаружение инцидента происходит в панели администратора балансировщика HAProxy (https://<адрес_сервера>:7000).
Строки компонентов окрашиваются в цветные статусы в зависимости от результата проверки healthcheck:
| Цвет | Значение |
|---|---|
| Ярко-зелёный | Компонент работает стабильно, проверка healthcheck прошла успешно. |
| Светло-зелёный | Компонент уходит в отказ, проверка healthcheck прошла успешно. |
| Жёлтый | Компонент восстанавливается из отказа, проверка healthcheck прошла успешно. |
| Красный | Компонент находится в отказе, либо проверка healthcheck прошла не успешно. |
При ярко-зелёном статусе компонентов дополнительное внимание не требуется. При светло-зелёном, жёлтом и красном статусе рекомендуется проверить состояние конкретного компонента на соответствующем сервере ПринтМенеджера.
Время реакции и решения
Инфраструктурные события
События, связанные с инфраструктурой, относятся к критическим неисправностям, напрямую влияющим на сервис печати.
Признаки остановки сервиса печати ПринтМенеджера
Недоступность сервисов admin_8080, admin_8010, cups_1631 на панели администратора HAProxy:
- Недоступность на 1 сервере — некритично, требует внимания.
- Недоступность на 2 серверах — критичный отказ сервиса.
В панели администратора HAProxy существует колонка, отвечающая за мониторинг времени последнего ответа от сервиса. Лимит ответа — 10 секунд. Если за это время сервис не дал ответ, статус изменит цвет.
| Параметр | Значение |
|---|---|
| Время реакции | до 5 минут |
| Время решения | до 30 минут |
| Эскалация | сразу при обнаружении |
Сервисные события
События, связанные с сервисом Принтум, относятся к уровню предупреждение и могут быть переквалифицированы в критичные в ходе диагностики. Данные события могут напрямую не отображаться в панели администратора HAProxy.
| Параметр | Значение |
|---|---|
| Время реакции | до 15 минут |
| Время решения | до 2 часов |
| Эскалация | при ухудшении состояния |
Проверка доступности сервисов
- Подключиться по SSH.
- Перейти в каталог нужного сервера:
ПринтМенеджер:
cd /opt/printmanager/
Мониторинг:
cd /opt/printum/
Балансировщик:
cd /opt/printum_balancer/
- Проверить контейнеры:
docker ps