# Классификация инцидентов и мониторинг состояния системы ## Назначение Инструкция описывает порядок действий дежурных администраторов при возникновении инцидентов в системе Принтум и связанных компонентах. Основана на отказоустойчивой архитектуре системы и процессах мониторинга. ## Классификация инцидентов ### События уровня инфраструктуры - Нет связи с сервером Мониторинга, ПринтМенеджера, HAProxy (не удаётся зайти в Личный кабинет, панели администратора); - События связаны с ресурсами ВМ; - Ошибки доступа к БД; - Недоступность NFS или stunnel; - Ошибки сети. ### События уровня сервисов Принтум - Не работает печать; - Отсутствуют задания в очереди; - Постоянный перезапуск контейнеров; - В приложении на МФУ ошибка: «Сервер ПринтМенеджера недоступен». ## Обнаружение инцидента Обнаружение инцидента происходит в панели администратора балансировщика HAProxy (`https://<адрес_сервера>:7000`). Строки компонентов окрашиваются в цветные статусы в зависимости от результата проверки healthcheck:

Цвет	Значение
Ярко-зелёный	Компонент работает стабильно, проверка healthcheck прошла успешно.
Светло-зелёный	Компонент уходит в отказ, проверка healthcheck прошла успешно.
Жёлтый	Компонент восстанавливается из отказа, проверка healthcheck прошла успешно.
Красный	Компонент находится в отказе, либо проверка healthcheck прошла не успешно.

При ярко-зелёном статусе компонентов дополнительное внимание не требуется. При светло-зелёном, жёлтом и красном статусе рекомендуется проверить состояние конкретного компонента на соответствующем сервере ПринтМенеджера. ## Время реакции и решения ### Инфраструктурные события События, связанные с инфраструктурой, относятся к критическим неисправностям, напрямую влияющим на сервис печати. #### Признаки остановки сервиса печати ПринтМенеджера Недоступность сервисов `admin_8080`, `admin_8010`, `cups_1631` на панели администратора HAProxy: - Недоступность на 1 сервере — некритично, требует внимания. - Недоступность на 2 серверах — критичный отказ сервиса. В панели администратора HAProxy существует колонка, отвечающая за мониторинг времени последнего ответа от сервиса. **Лимит ответа — 10 секунд.** Если за это время сервис не дал ответ, статус изменит цвет.

Параметр	Значение
Время реакции	до 5 минут
Время решения	до 30 минут
Эскалация	сразу при обнаружении

### Сервисные события События, связанные с сервисом Принтум, относятся к уровню **предупреждение** и могут быть переквалифицированы в критичные в ходе диагностики. Данные события могут напрямую не отображаться в панели администратора HAProxy.

Параметр	Значение
Время реакции	до 15 минут
Время решения	до 2 часов
Эскалация	при ухудшении состояния

## Проверка доступности сервисов 1. Подключиться по SSH. 2. Перейти в каталог нужного сервера: ПринтМенеджер: ``` cd /opt/printmanager/ ``` Мониторинг: ``` cd /opt/printum/ ``` Балансировщик: ``` cd /opt/printum_balancer/ ``` 3. Проверить контейнеры: ``` docker ps ```