Примеры применения
04.09.2014

Пример мониторинга на основе NetPing в типовой серверной

Введение

В этой статье я бы хотел описать свой опыт и взгляды на мониторинг серверного помещения. Для начала оценим масштаб зоны ответственности. У меня небольшая серверная площадью в два квадратных метра, в которой всего 2 стойки: под сервера и сетевое оборудование. Климат обеспечивается сплит-системой из двух кондиционеров (основного и резервного), также присутствует ИБП. В целом, обычная серверная небольшой компании. Железо DELL, СХД NetApp, сети на Cisco, ИБП APC, серверная ОС WinServer 2008 R2(AD, DNS,DHCP,сервер приложений и сервер БД), за мониторинг отвечает PRTG Network Monitor.

Как-то раз я получил письмо о том, что мои серверы получили статус End-Of-Support (прошло 5 лет с момента закупки), и руководство приняло решение не продлевать гарантию за деньги, а закупить новое железо. Старое должно было уйти на игровые площадки для разработчиков и тестировщиков, но руководство предупредило, что «наступают тяжелые времена» и денег под развитие выделяться больше не будет без крайней необходимости. Обеспокоенный вопросом долговечности и надежности моих серверов, я поднял вопрос о мониторинге не только самого оборудования, но и серверного помещения.

Чтобы уговорить руководство раскошелиться еще немного, я выложил следующие аргументы:

  1. СН 512-78 Технические требования к зданиям и помещениям для установки средств вычислительной техники, а конкретно пункт 3: Требования к микроклимату и шуму.
  2. Перечень сервисов и время их простоя. Какие проекты будут «задеты» в случае падения промышленного сервера приложений.

По итогам было предложено либо закупить дополнительное оборудования для подготовки отказоустойчивого решения, либо купить систему мониторинга для серверной. Денег выделили, да и задублировать критичные сервисы тоже согласились. Но поговорим о мониторинге помещения.

Что мы будем мониторить и как

Само железо я мониторю через консоль IPMI – оттуда я получаю данные по состоянию мат. платы, процессора, жесткого диска и т.д., в том числе и информацию по температуре непосредственно внутри. В самом помещении мне нужно будет мониторить температуру и влажность.

Но для начала – зачем это нужно?

  1. Температура: здесь важно понимать, что даже наличие информации по температуре не дает мне понимания о состоянии самое серверной, ведь температура внутри корпуса запросто может превышать 50 градусов! Даже если опираться только на теплодатчики внутри железа, получение алерта с самого сервера – это уже точка невозврата, поскольку сервер после остановки кондиционера нагревается не сразу.
  2. Влажность – для серверных оптимальной влажность считается 40-60%. Если меньше – накапливается электростатический заряд, а если больше – конденсация влаги, что приводит к окислительным процессам и сокращает срок работы железа.

Теперь к инструменту пониторинга. Я буду использовать UniPing Server Solution v3/SMS.

Для наглядности – схема подключения:

Пример мониторинга на основе NetPing в типовой серверной

Все изображенное на картинке мне не понадобится, я ограничусь только датчиками влажности и температуры.

Сам UniPing был установлен в одной стойке, по 3 термодатчика на стойку (спереди снизу, посередене и сверху для избежания «средней температуры по больнице), 1 датчик влажности снаружи, между стойками.

Получилось приблизительно так:

На другой стойке такое же расположение термодатчиков. Сам UniPing я настроил на отправку SMS и работу сигнализации, данные с него у меня обрабатывает PRTG (как подружить PRTG с UniPing читайте в отдельной статье). Казалось бы, задача решена, но так ли это?

Мониторинг - это не только сбор информации

Настроенные алерты, графики на большом экране - это лишь полдела, не менее важна реакция на инцидент. Об управлении инцидентами отдельно рассказывается на курсах ITIL и ITSM, поэтому мы слегка затронем конкретно ситуацию мониторинга.

Для начала давайте определимся с метриками. Какая допустимая норма? При каком пороговом значении и в какие временные рамки какое должно срабатывать оповещение?

Я установил верхний порог для температуры 28 градусов. При достижении такой температуры PRTG пришлет мне электронное письмо через 5 минут после обнаружения. Это значение обусловлено тем, что при температуре 28 градусов в помещении температура внутри корпуса достигает уже 51 градус через 15-20 минут. Это не является критичным для железа, но сокращает срок его службы. При достижении 30 градусов через 5 минут срабатывает сигнализация в помещении, и отправляется сообщение на телефонные номера меня, моего коллеги и моего начальника.

Касательно влажности все немного сложнее. Пороговых значений здесь уже два: ниже 35% и выше 65%. Аварийная сигнализация здесь не срабатывает, только отправка SMS и предупреждение в мониторинг. 

Вот так выглядят настройки границ в UniPing:

Вот такие графики с сенсоров после подключения их к PRTG Network Monitor:

Настройка отчета по датчикам влажности.

Реакция на инциденты

По воле злого рока мониторинг пригодился сразу – один из кондиционеров отказал, а второй не включился. Обнаружили, что пропало питание на сплит-систему, вызвали техобслуживание здания, и проблема была решена. Благо это произошло в рабочий день, но что делать, если кондиционер отказал в выходной день?

По результатам внутреннего обсуждения и переговоров с администрацией бизнес-центра мы пришли к следующему регламенту. При достижении критичного значения влажности и температуры в любое время инженерам инфраструктуры и техобслуживанию здания приходит электронное письмо. Инженеры и руководство IT получают SMS-сообщение, также оно приходит на дежурный телефон службы техобслуживания. После этого инженеры от IT незамедлительно связываются со службой техобслуживания для решения проблемы. Инженеры ИТ между собой заранее регулируют, кто будет первым реагировать на инцидент в нерабочее время (читай – кто поедет в офис по необходимости).

Такой регламент соблюдается при условии, что сисадмины работают в обычное офисное рабочее время, и дежурных смен у нас нет. Если бы у нас была дежурная смена, то ответственность за реакцию лежала бы на ней.

Также мы теперь собираем данные по показателям температуры помещения для выявления трендов (например, не стала охлаждающая способность кондиционеров хуже или нет ли тренда повышения влажности).

С такими отчетами можно потом идти к руководству, чтобы заказать новый кондиционер или установку приточно-вытяжной вентиляции.


  • Все устройства

Основные теги


Каталог устойств мониторинг серверных комнат и шкафов
Все устройства
Устройство UniPing v3
Устройство NetPing 2/PWR-220 v1/SMS
Устройство NetPing 2/PWR-220 v3/ETH
Устройство NetPing /PWR-220 v3/ETH
Устройство UniPing server solution
Устройство UniPing server solution v3/SMS
Устройство NetPing IO v2
Устройства NetPing
Каталог датчиков для устройств NetPing
Устройство NetPing 8/PWR-220 v3/SMS
Устройство NetPing 2/PWR-220 v2/SMS
Устройство NetPing 4/PWR-220 v3/SMS
Устройство NetPing SMS
Адаптер WiFi VAP11N
Коммутатор PS104GT
Устройство NetPing Mini-UPS
Коммутатор NP-SM4
Сплиттер POE 12В (стандарта 802.3af)
IRC-TR v2 (ИК модуль расширения)
Каталог устройств удалённого управления и распределения электропитания NetPing
Устройство UniPing server solution v3
Датчик разбития стекла (Стекло-3 ИО 329-4), 2м
Переходник для NetPing IO v2
Устройство NetPing PWR68-01
Датчик мониторинга 220В 1-wire
Адаптер DKST910.8
Устройство NetPing DKST61-01
Блок питания 48В 1,5А (мод.HRS20005)
Датчик температуры TS, 1м
Датчик температуры, (T811), 2м
Датчик температуры WT, 1м
Датчик протечки, модель 2605, 2м
Датчик протечки H2О
Датчик температуры 1-wire, (THS), 2м
МАЯК-12-СТ
Датчик движения (PYRONIX COLT QUAD PI ПИК детектор), 2м
Датчик движения (SWAN-QUAD ИК детектор квадросенсор), (2м)
BM8070D Силовое реле 16А/250В на DIN-рейку
MP701 Исполнительный элемент (4 независимых канала по 2 кВт 10А)
Датчик дыма комбинированный (дым/тепло) ИП 212/101-2М-A10R с базой Е412NL
МОЛЛЮСК-12/1,5
Внешний ИБП SKAT-12DC-1.0 Li-ion
ИКС-1 извещатель охранный инфракрасный активный однолучевой
Готовое решение для мониторинга серверной комнаты на основе UniPing server solution v3/SMS
▼ Все теги
Новинки
Датчик воздушного потока LCF013
Датчик воздушного потока позволяет контролировать наличие или отсутствие напора воздушного потока. Содержит подробнее...

Цена: 2 587 руб.

ИКС-1 извещатель охранный инфракрасный активный однолучевой
Извещатель предназначен для регистрации пересечения нарушителями контролируемой зоны, образованной оптическим подробнее...

Цена: 3 854 руб.

Внешний ИБП SKAT-12DC-1.0 Li-ion
Малогабаритный источник бесперебойного питания (ИБП) со встроенной Li-Ion АКБ. Для питания устройств подробнее...

Цена: 3 200 руб.

МОЛЛЮСК-12/1,5
Малогабаритный блок питания с выходным напряженим 12 В. Имеет уникальный корпус, который позволяет осуществить подробнее...

Цена: 950 руб.

Датчик дыма комбинированный (дым/тепло) ИП 212/101-2М-A10R с базой Е412NL
Комбинированный извещатель предназначен для обнаружения возгораний в помещениях различных зданий и сооружений подробнее...

Цена: 2 098 руб.

MP701 Исполнительный элемент (4 независимых канала по 2 кВт 10А)
Силовой модуль коммутации предназначен для обеспечения управления при помощи устройств NetPing силовыми подробнее...

Цена: 1 400 руб.

BM8070D Силовое реле 16А/250В на DIN-рейку
Блок реле для удалённой коммутации мощной нагрузки при помощи устройств NetPing. Изготавливается в корпусе подробнее...

Цена: 1 350 руб.

Датчик движения (SWAN-QUAD ИК детектор квадросенсор), (2м)
Пассивный инфракрасный детектор движения позволяет регистрировать любое движение в зоне до 18 метров. подробнее...

Цена: 1 516 руб.

МАЯК-12-СТ
Оповещатель охранно-пожарный световой стробоскопический предназначен для выдачи световых стробоскопических подробнее...

Цена: 385 руб.

Датчик протечки H2О
Датчик протечки позволяет определить наличие воды в точке установки датчика. Устанавливается в нескольких подробнее...

Цена: 1 450 руб.

-+ руб. руб.
Итого руб.

Данные о заказе