Классификация инцидентов и мониторинг состояния системы

Назначение

Инструкция описывает порядок действий дежурных администраторов при возникновении инцидентов в системе Принтум и связанных компонентах. Основана на отказоустойчивой архитектуре системы и процессах мониторинга.

Классификация инцидентов

События уровня инфраструктуры

События уровня сервисов Принтум

Обнаружение инцидента

Обнаружение инцидента происходит в панели администратора балансировщика HAProxy (https://<адрес_сервера>:7000).

Строки компонентов окрашиваются в цветные статусы в зависимости от результата проверки healthcheck:

ЦветЗначение
Ярко-зелёныйКомпонент работает стабильно, проверка healthcheck прошла успешно.
Светло-зелёныйКомпонент уходит в отказ, проверка healthcheck прошла успешно.
ЖёлтыйКомпонент восстанавливается из отказа, проверка healthcheck прошла успешно.
КрасныйКомпонент находится в отказе, либо проверка healthcheck прошла не успешно.

При ярко-зелёном статусе компонентов дополнительное внимание не требуется. При светло-зелёном, жёлтом и красном статусе рекомендуется проверить состояние конкретного компонента на соответствующем сервере ПринтМенеджера.

Время реакции и решения

Инфраструктурные события

События, связанные с инфраструктурой, относятся к критическим неисправностям, напрямую влияющим на сервис печати.

Признаки остановки сервиса печати ПринтМенеджера

Недоступность сервисов admin_8080, admin_8010, cups_1631 на панели администратора HAProxy:

В панели администратора HAProxy существует колонка, отвечающая за мониторинг времени последнего ответа от сервиса. Лимит ответа — 10 секунд. Если за это время сервис не дал ответ, статус изменит цвет.

ПараметрЗначение
Время реакциидо 5 минут
Время решениядо 30 минут
Эскалациясразу при обнаружении

Сервисные события

События, связанные с сервисом Принтум, относятся к уровню предупреждение и могут быть переквалифицированы в критичные в ходе диагностики. Данные события могут напрямую не отображаться в панели администратора HAProxy.

ПараметрЗначение
Время реакциидо 15 минут
Время решениядо 2 часов
Эскалацияпри ухудшении состояния

Проверка доступности сервисов

  1. Подключиться по SSH.
  2. Перейти в каталог нужного сервера:

ПринтМенеджер:

cd /opt/printmanager/

Мониторинг:

cd /opt/printum/

Балансировщик:

cd /opt/printum_balancer/
  1. Проверить контейнеры:
docker ps

Revision #2
Created 2026-05-10 15:04:17 UTC by DD
Updated 2026-05-11 06:02:32 UTC by DD