# Классификация инцидентов и мониторинг состояния системы

## Назначение

Инструкция описывает порядок действий дежурных администраторов при возникновении инцидентов в системе Принтум и связанных компонентах. Основана на отказоустойчивой архитектуре системы и процессах мониторинга.

## Классификация инцидентов

### События уровня инфраструктуры

- Нет связи с сервером Мониторинга, ПринтМенеджера, HAProxy (не удаётся зайти в Личный кабинет, панели администратора);
- События связаны с ресурсами ВМ;
- Ошибки доступа к БД;
- Недоступность NFS или stunnel;
- Ошибки сети.

### События уровня сервисов Принтум

- Не работает печать;
- Отсутствуют задания в очереди;
- Постоянный перезапуск контейнеров;
- В приложении на МФУ ошибка: «Сервер ПринтМенеджера недоступен».

## Обнаружение инцидента

Обнаружение инцидента происходит в панели администратора балансировщика HAProxy (`https://<адрес_сервера>:7000`).

Строки компонентов окрашиваются в цветные статусы в зависимости от результата проверки healthcheck:

<table id="bkmrk-%D0%A6%D0%B2%D0%B5%D1%82%D0%97%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5-%D0%AF%D1%80%D0%BA%D0%BE-%D0%B7%D0%B5"><thead><tr><th>Цвет</th><th>Значение</th></tr></thead><tbody><tr><td>**Ярко-зелёный**</td><td>Компонент работает стабильно, проверка healthcheck прошла успешно.</td></tr><tr><td>**Светло-зелёный**</td><td>Компонент уходит в отказ, проверка healthcheck прошла успешно.</td></tr><tr><td>**Жёлтый**</td><td>Компонент восстанавливается из отказа, проверка healthcheck прошла успешно.</td></tr><tr><td>**Красный**</td><td>Компонент находится в отказе, либо проверка healthcheck прошла не успешно.</td></tr></tbody></table>

При ярко-зелёном статусе компонентов дополнительное внимание не требуется. При светло-зелёном, жёлтом и красном статусе рекомендуется проверить состояние конкретного компонента на соответствующем сервере ПринтМенеджера.

## Время реакции и решения

### Инфраструктурные события

События, связанные с инфраструктурой, относятся к критическим неисправностям, напрямую влияющим на сервис печати.

#### Признаки остановки сервиса печати ПринтМенеджера

Недоступность сервисов `admin_8080`, `admin_8010`, `cups_1631` на панели администратора HAProxy:

- Недоступность на 1 сервере — некритично, требует внимания.
- Недоступность на 2 серверах — критичный отказ сервиса.

В панели администратора HAProxy существует колонка, отвечающая за мониторинг времени последнего ответа от сервиса. **Лимит ответа — 10 секунд.** Если за это время сервис не дал ответ, статус изменит цвет.

<table id="bkmrk-%D0%9F%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%97%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5-%D0%92%D1%80%D0%B5"><thead><tr><th>Параметр</th><th>Значение</th></tr></thead><tbody><tr><td>Время реакции</td><td>до 5 минут</td></tr><tr><td>Время решения</td><td>до 30 минут</td></tr><tr><td>Эскалация</td><td>сразу при обнаружении</td></tr></tbody></table>

### Сервисные события

События, связанные с сервисом Принтум, относятся к уровню **предупреждение** и могут быть переквалифицированы в критичные в ходе диагностики. Данные события могут напрямую не отображаться в панели администратора HAProxy.

<table id="bkmrk-%D0%9F%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%97%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5-%D0%92%D1%80%D0%B5-1"><thead><tr><th>Параметр</th><th>Значение</th></tr></thead><tbody><tr><td>Время реакции</td><td>до 15 минут</td></tr><tr><td>Время решения</td><td>до 2 часов</td></tr><tr><td>Эскалация</td><td>при ухудшении состояния</td></tr></tbody></table>

## Проверка доступности сервисов

1. Подключиться по SSH.
2. Перейти в каталог нужного сервера:

ПринтМенеджер:

```
cd /opt/printmanager/
```

Мониторинг:

```
cd /opt/printum/
```

Балансировщик:

```
cd /opt/printum_balancer/
```

3. Проверить контейнеры:

```
docker ps
```