Построение системы мониторинга ИТ-инфраструктуры

Мониторинг инфраструктуры сегодня — это не столько информация о сбоях сервисов и оборудования, сколько инструмент управления изменениями и контроля расходов. Изменения инфраструктуры давно перешли из области проектных работ в область процессов. Данные мониторинга позволяют судить о том, насколько успешно выполнены работы — будь то установка обновлений ПО или новых сигнатур IPS, масштабирование среды, вывод из продуктива старой системы или развертывание дополнительных узлов кластера.

Несмотря на обещания вендоров, универсальной системы мониторинга нет и не будет. Попытки выбрать один продукт и использовать его как универсальный инструмент работают только в небольших и достаточно простых инфраструктурах. С ростом сложности будет расти стоимость владения таким решением и проявятся ограничения, имеющиеся у каждого из них.

Наиболее критичные для бизнеса системы и сервисы и имеют свои особенности и характеристики, на которые должна быть направлена система мониторинга. Там, где критична поддержка связи, особое внимание нужно будет уделять характеристикам каналов. Бесперебойность работы 24 х 7 обеспечивается надежностью работы сетевой инфраструктуры и минимальным временем локализации точки отказа. Беспроводные сети — постоянно меняющийся комплекс решений, в котором константа — качественный контроль радиодиапазона, состояния оборудования, механизмов авторизации и аутентификации, безопасности и качества услуг. Мониторинг высоко нагруженных баз данных, параллельных вычислений, IoT-устройств и т. д. — для разных задач оптимальными будут разные технические решения.

Ориентируясь на мониторинг ключевых элементов инфраструктуры, при выборе базового решения будем рассматривать не функции, а наиболее важные для систем параметры, обеспечивающие приоритетные бизнес-процессы, например:

нативную поддержку используемых элементов инфраструктуры,
возможность сбора информации по важным параметрам информационных систем,
объемы или задержки передаваемых данных,
нагрузку на клиентское устройство,
необходимость установки программного клиента,
производительность системы мониторинга,
визуализацию и скорость локализации отказа,
возможности геораспределенного мониторинга и репликации,
поддержку мультиоблачных и гибридных сред,
механизмы безопасности и многое другое.

Сегодня иерархия сервисов ИТ-инфраструктуры усложнилась настолько, что никакое универсальное решение не справится со всеми задачами мониторинга. В большинстве случаев требуется провести предварительный анализ ИТ-инфраструктуры и бизнеc-процессов организации. Такой подход упростит выбор и тестирование исходных вариантов и позволит построить систему мониторинга, релевантную качеству работы сервиса и его состоянию.

В качестве ядра сложных систем мониторинга может быть специализированное решение, ориентированное на поддержку ключевых бизнес-процессов организации, например:

AWS CloudWatch, Azure Monitor или связка из Telegraf/Prometheus и Grafana для сервисов,
решения Cisco, Huawei для мониторинга и управления разными типами сетей,
Netsas для мониторинга крупных сетей или систем IoT,
APC EcoStruxure IT для мониторинга инженерной инфраструктуры и т.п.

Они могут быть дополнены системами для мониторинга офисных инфраструктур, виртуальных и серверных сред, где свое применение найдут традиционные решения, такие, как Zabbix, Manage Engine Operation Manager, Microsoft SCOM или Veeam ONE.

Простой вывод — не надо гнаться за функционалом и стремиться решить одной системой все задачи мониторинга. Во-первых, комплексное сравнение нескольких универсальных систем мониторинга займет столько времени, что оно того не стоит. Во-вторых, перед нами встанет еще одна проблема универсальных решений — непрозрачность лицензирования.

Напротив, с помощью открытых API или стандартных протоколов можно подключать внешние системы, не имеющие встроенных механизмов подключения, а также агрегировать данные из разных сред мониторинга для обеспечения единой точки визуализации и нотификаций.

Таким образом, стоимость решения складывается из нескольких составляющих:

Стоимость собственно системы мониторинга. Некоторые продукты могут быть доступны как из облака (с оплатой по подписке или по фактическому потреблению услуг), так и для локальной установки. Облачная среда может выступать и производителем, и сервис-провайдером. А такие продукты, как Microsoft SCOM или Veeam One, являются частью комплекса систем мониторинга и управления.
Стоимость лицензий. Лицензия может быть простая, как у Netsas Enigma NMS (по числу устройств), или сложная, как у Manage Engine, где есть не только несколько версий продукта и лицензирование по устройствам / пользователям, но и лицензирование функций через приобретение плагинов. Стоимость лицензий может быть равна нулю для таких систем, как Grafana или Zabbix, но у них есть возможность приобрести коммерческую версию (Grafana Enterprise) или заказать разработчику (Zabbix SIA) доработку решения под ваши требования.
Техническая поддержка. Для некоторых продуктов ее приобретение – единственная возможность лицензирования, для других — опция поддержки от производителя и авторизованных партнеров.
Стоимость внедрения или обновления системы мониторинга, которая зависит от множества факторов: типов и настроек клиентского оборудования, требуемых интеграций, сложности сети и доступности сервисов для проведения обслуживания.

Если к этому перечню добавить профессиональный анализ базовой инфраструктуры, которую планируется снабдить системой мониторинга, то результатом будет более эффективное решение и более экономичная последующая его эксплуатация.