Мониторинг — Методология Производственного Уровня Для Оповещений

  • Автор темы Seven77
  • Обновлено
  • 22, Oct 2024
  • #1

Фон

Наш код написано с:

  1. Модульные тесты
  2. Сквозные тесты
  3. Обзор кода
  4. Постановочный процесс
  5. Процесс развертывания

Напротив, наши оповещения просто пишутся, а затем время от времени изменяются вручную. Никакого качественного процесса.

Этот процесс подходит для простых проверок порогов. Однако наши оповещения иногда строятся на основе сложных запросов. Иногда состоит из ~20 строк запроса.

Если мы случайно нарушим предупреждение, это может привести к нестабильности производства, поскольку мы не будем знать, сломалась ли какая-то логика или компонент.

Вопрос

Существует ли рекомендуемая методология проверки качества сложных оповещений?

P.S.

Мы используем оповещения Splunk

#мониторинг

Seven77


Рег
22 Apr, 2007

Тем
73

Постов
217

Баллов
602
  • 25, Oct 2024
  • #2

ДТАП

Поскольку мониторинг является частью производства, он также должен быть частью DTAP. Это также подразумевает мониторинг разработки, тестирования, приемки и производства. Если кто-то модифицирует проверку в производстве, и это приведет к отключению какой-либо проверки, и если команде не сообщат о наличии проблем, это повлияет на клиента, и это может стать огромной проблемой. Короче говоря, если мониторинг является частью производства, его следует применять и ко всем этапам DTAP.

Тестирование

Если в splunk используются пользовательские сценарии, написанные на Python или каком-либо другом языке, вам также следует применить модульные тесты и интеграционные тесты. В большинстве систем мониторинга проверяются коды выхода 0, 1, 2 и 3, поэтому это также следует учитывать в тестах. Если мониторинг написан на bash, можно использовать BATS, а Powershell также можно протестировать с помощью Pester.

Зачем тестировать эти скрипты? Опять же, причина та же, что описана в разделе DTAP. Представьте, что кто-то нарушает какой-то сценарий мониторинга, допустив опечатку, и вы не получаете уведомления, тогда это может оказать огромное влияние на клиента, а также на команду. Представьте, что вам нужно провести отладку пару дней из-за того, что какой-то скрипт работает некорректно, хотя это можно было предотвратить. Поэтому я советую применять модульные тесты, интеграционные тесты и даже CI для этих «простых» скриптов мониторинга.

 

Bendradarbis


Рег
19 Aug, 2005

Тем
85

Постов
179

Баллов
604
Похожие темы Дата
Похожие темы
Службы Azure И Dns
Dockerhub – Можно Ли Контейнеризировать С Помощью Docker Без Локальной Настройки?
Веб-Сервисы Amazon — Стратегия Автоматизации Создания Промежуточной Бд Из Производственной Базы Данных + Автоматическое Обновление
Непрерывная Доставка — Как Синхронизировать Развертывания (Особенно Изменения Объектов Базы Данных) В Нескольких Средах.
Как Подключить Балансировщик Нагрузки Gcp К Кластеру Kubernetes (Кластер С Одним Узлом)
Cicd – Как Включить В Azure Publish Artifact Только Содержимое Каталога Без Полного Пути К Файлу?
Дженкинс – Как Настроить Git-Lfs В Качестве Дополнительного Поведения При Оформлении Заказа С Помощью Плагина Jcac?
Ansible Несколько Команд В Файл
Есть Ли В Docker Какие-Либо Преимущества Или Недостатки При Использовании «Cmd Cmd1 && Cmd2» По Сравнению С «Cmd Cmd1 && Exec Cmd2»?
Веб-Сервисы Amazon — Разница Между Упаковщиком И Спичечным Коробком
Тем
403,760
Комментарии
400,028
Опыт
2,418,908

Интересно