Примеры применения
04.09.2014

Пример мониторинга на основе NetPing в типовой серверной

Введение

В этой статье я бы хотел описать свой опыт и взгляды на мониторинг серверного помещения. Для начала оценим масштаб зоны ответственности. У меня небольшая серверная площадью в два квадратных метра, в которой всего 2 стойки: под сервера и сетевое оборудование. Климат обеспечивается сплит-системой из двух кондиционеров (основного и резервного), также присутствует ИБП. В целом, обычная серверная небольшой компании. Железо DELL, СХД NetApp, сети на Cisco, ИБП APC, серверная ОС WinServer 2008 R2(AD, DNS,DHCP,сервер приложений и сервер БД), за мониторинг отвечает PRTG Network Monitor.

Как-то раз я получил письмо о том, что мои серверы получили статус End-Of-Support (прошло 5 лет с момента закупки), и руководство приняло решение не продлевать гарантию за деньги, а закупить новое железо. Старое должно было уйти на игровые площадки для разработчиков и тестировщиков, но руководство предупредило, что «наступают тяжелые времена» и денег под развитие выделяться больше не будет без крайней необходимости. Обеспокоенный вопросом долговечности и надежности моих серверов, я поднял вопрос о мониторинге не только самого оборудования, но и серверного помещения.

Чтобы уговорить руководство раскошелиться еще немного, я выложил следующие аргументы:

  1. СН 512-78 Технические требования к зданиям и помещениям для установки средств вычислительной техники, а конкретно пункт 3: Требования к микроклимату и шуму.
  2. Перечень сервисов и время их простоя. Какие проекты будут «задеты» в случае падения промышленного сервера приложений.

По итогам было предложено либо закупить дополнительное оборудования для подготовки отказоустойчивого решения, либо купить систему мониторинга для серверной. Денег выделили, да и задублировать критичные сервисы тоже согласились. Но поговорим о мониторинге помещения.

Что мы будем мониторить и как

Само железо я мониторю через консоль IPMI – оттуда я получаю данные по состоянию мат. платы, процессора, жесткого диска и т.д., в том числе и информацию по температуре непосредственно внутри. В самом помещении мне нужно будет мониторить температуру и влажность.

Но для начала – зачем это нужно?

  1. Температура: здесь важно понимать, что даже наличие информации по температуре не дает мне понимания о состоянии самое серверной, ведь температура внутри корпуса запросто может превышать 50 градусов! Даже если опираться только на теплодатчики внутри железа, получение алерта с самого сервера – это уже точка невозврата, поскольку сервер после остановки кондиционера нагревается не сразу.
  2. Влажность – для серверных оптимальной влажность считается 40-60%. Если меньше – накапливается электростатический заряд, а если больше – конденсация влаги, что приводит к окислительным процессам и сокращает срок работы железа.

Теперь к инструменту пониторинга. Я буду использовать UniPing Server Solution v3/SMS.

Для наглядности – схема подключения:

Пример мониторинга на основе NetPing в типовой серверной

Все изображенное на картинке мне не понадобится, я ограничусь только датчиками влажности и температуры.

Сам UniPing был установлен в одной стойке, по 3 термодатчика на стойку (спереди снизу, посередене и сверху для избежания «средней температуры по больнице), 1 датчик влажности снаружи, между стойками.

Получилось приблизительно так:

На другой стойке такое же расположение термодатчиков. Сам UniPing я настроил на отправку SMS и работу сигнализации, данные с него у меня обрабатывает PRTG (как подружить PRTG с UniPing читайте в отдельной статье). Казалось бы, задача решена, но так ли это?

Мониторинг - это не только сбор информации

Настроенные алерты, графики на большом экране - это лишь полдела, не менее важна реакция на инцидент. Об управлении инцидентами отдельно рассказывается на курсах ITIL и ITSM, поэтому мы слегка затронем конкретно ситуацию мониторинга.

Для начала давайте определимся с метриками. Какая допустимая норма? При каком пороговом значении и в какие временные рамки какое должно срабатывать оповещение?

Я установил верхний порог для температуры 28 градусов. При достижении такой температуры PRTG пришлет мне электронное письмо через 5 минут после обнаружения. Это значение обусловлено тем, что при температуре 28 градусов в помещении температура внутри корпуса достигает уже 51 градус через 15-20 минут. Это не является критичным для железа, но сокращает срок его службы. При достижении 30 градусов через 5 минут срабатывает сигнализация в помещении, и отправляется сообщение на телефонные номера меня, моего коллеги и моего начальника.

Касательно влажности все немного сложнее. Пороговых значений здесь уже два: ниже 35% и выше 65%. Аварийная сигнализация здесь не срабатывает, только отправка SMS и предупреждение в мониторинг. 

Вот так выглядят настройки границ в UniPing:

Вот такие графики с сенсоров после подключения их к PRTG Network Monitor:

Настройка отчета по датчикам влажности.

Реакция на инциденты

По воле злого рока мониторинг пригодился сразу – один из кондиционеров отказал, а второй не включился. Обнаружили, что пропало питание на сплит-систему, вызвали техобслуживание здания, и проблема была решена. Благо это произошло в рабочий день, но что делать, если кондиционер отказал в выходной день?

По результатам внутреннего обсуждения и переговоров с администрацией бизнес-центра мы пришли к следующему регламенту. При достижении критичного значения влажности и температуры в любое время инженерам инфраструктуры и техобслуживанию здания приходит электронное письмо. Инженеры и руководство IT получают SMS-сообщение, также оно приходит на дежурный телефон службы техобслуживания. После этого инженеры от IT незамедлительно связываются со службой техобслуживания для решения проблемы. Инженеры ИТ между собой заранее регулируют, кто будет первым реагировать на инцидент в нерабочее время (читай – кто поедет в офис по необходимости).

Такой регламент соблюдается при условии, что сисадмины работают в обычное офисное рабочее время, и дежурных смен у нас нет. Если бы у нас была дежурная смена, то ответственность за реакцию лежала бы на ней.

Также мы теперь собираем данные по показателям температуры помещения для выявления трендов (например, не стала охлаждающая способность кондиционеров хуже или нет ли тренда повышения влажности).

С такими отчетами можно потом идти к руководству, чтобы заказать новый кондиционер или установку приточно-вытяжной вентиляции.


  • Все устройства

Основные теги


Каталог устойств мониторинг серверных комнат и шкафов
Все устройства
Устройство UniPing v3
Устройство UniPing server solution v3/SMS
Устройство NetPing 2/PWR-220 v1/SMS
Устройство NetPing IO v2
Устройства NetPing
Каталог датчиков для устройств NetPing
Устройство NetPing 8/PWR-220 v3/SMS
Устройство NetPing 2/PWR-220 v3/ETH
Устройство NetPing 2/PWR-220 v2/SMS
Устройство NetPing 4/PWR-220 v3/SMS
Устройство NetPing SMS
Устройство NetPing /PWR-220 v3/ETH
Адаптер WiFi VAP11N
Коммутатор PS104GT
Устройство NetPing Mini-UPS
Коммутатор NP-SM4
Сплиттер POE 12В (стандарта 802.3af)
IRC-TR v2 (ИК модуль расширения)
Каталог устройств удалённого управления и распределения электропитания NetPing
Устройство UniPing server solution
Устройство UniPing server solution v3
Датчик разбития стекла (Стекло-3 ИО 329-4), 2м
Переходник для NetPing IO v2
Блок питания 48В 1,5А (мод.HRS20005)
Датчик температуры TS, 1м
Датчик температуры, (T811), 2м
Датчик температуры WT, 1м
Датчик протечки, модель 2605, 2м
Датчик протечки H2О
Датчик температуры 1-wire, (THS), 2м
МАЯК-12-СТ
Датчик движения (PYRONIX COLT QUAD PI ПИК детектор), 2м
Датчик движения (SWAN-QUAD ИК детектор квадросенсор), (2м)
BM8070D Силовое реле 16А/250В на DIN-рейку
MP701 Исполнительный элемент (4 независимых канала по 2 кВт 10А)
Датчик дыма комбинированный (дым/тепло) ИП 212/101-2М-A1R с базой Е412NL
МОЛЛЮСК-12/1,5
Внешний ИБП SKAT-12DC-1.0 Li-ion
ИКС-1 извещатель охранный инфракрасный активный однолучевой
Датчик охранный (Извещатель охранный ИО102-20/Б2П, 2м)
Блок розеток SNR-PDU-08S-1
Устройство NetPing 2/PWR-220 v4/SMS
Устройство UniPing server solution v4/SMS
Устройство NetPing 8/PWR-220 v4/SMS
VT592 кабельный датчик протечки
WLC10 кабель протечки
NetPing Connection board v2 (коммутационная плата для UniPing v3)
Инжектор питания POE (стандарта 802.3af)
NetPing датчик наличия электропитания 995S1
Устройство NetPing 2/PWR-220 v12/ETH
Устройство NetPing 2/PWR-220 v13/GSM3G
Датчик наличия 220В (мод. HRS05005), 1.5м
NetPing удлинитель-разветвитель 1-wire на 5 портов, модель R912R1
NetPing датчик качества электропитания 1-wire 910S20
PLController R15250 силовое реле 15A/250В на DIN-рейку
NetPing адаптер датчиков с аналоговым интерфейсом 0-20мА, модель 886A01
Устройство NetPing server solution v5
Устройство NetPing ИК модуль, модель 3801
Устройство NetPing server solution v5/GSM3G
Устройство NetPing 4/PWR-220 v6.1/GSM3G
Устройство NetPing 4/PWR-220 v6.2/GSM3G
NetPing IO v3
NetPing Input+Relay v1
NetPing NP-GB322
▼ Все теги
Новинки
Устройство NetPing 4/PWR-220 v6.4/ETH
Устройство удаленного управления розетками электропитания по сети Ethernet/Internet (IP PDU).4 канала подробнее...

Цена: 15 730 руб.

NetPing NP-GB322
Коммутатор Ethernet на 5 портов 10/100/1000 BASE-TX с поддержкой PoE (электропитание по Ethernet-кабелю) 5 подробнее...

Цена: 4 290 руб.

NetPing Input+Relay v1
Компактное устройство удаленного мониторинга датчиков по сети Ethernet/Internet. Позволяет удаленно подробнее...

Цена: 6 200 руб.

NetPing IO v3
Компактное бескорпусное устройство удаленного мониторинга датчиков по сети Ethernet/Internet. Позволяет подробнее...

Цена: 2 500 руб.

Устройство NetPing 4/PWR-220 v6.2/GSM3G
Устройство удаленного управления розетками электропитания по сети Ethernet/Internet (IP PDU) c поддержкой подробнее...

Цена: 20 280 руб.

Устройство NetPing 4/PWR-220 v6.1/GSM3G
Устройство удаленного управления розетками электропитания по сети Ethernet/Internet (IP PDU) c поддержкой подробнее...

Цена: 20 280 руб.

NetPing блок розеток 1-wire 888S0201
Блок розеток предназначен для удаленного управления нагрузкой. Устройство не является самостоятельным, подробнее...

Цена: 10 980 руб.

Устройство NetPing ИК модуль, модель 3801
ИК-контроллер для дистанционного и автоматического управления устройствами с инфракрасным интерфейсом подробнее...

Цена: 8 580 руб.

Устройство NetPing server solution v5
Устройство удаленного мониторинга датчиков по сети Ethernet/Internet. Позволяет удаленно получать информацию подробнее...

Цена: 18 000 руб.

Устройство NetPing server solution v5/GSM3G
Устройство удаленного мониторинга датчиков по сети Ethernet/Internet. Позволяет удаленно получать информацию подробнее...

Цена: 26 000 руб.

PLController R15250 силовое реле 15A/250В на DIN-рейку
Силовое реле в корпусе для крепления на DIN-рейку предназначено для удаленной коммутации мощной нагрузки.Напряжение подробнее...

Цена: 1 429 руб.

NetPing адаптер датчиков с аналоговым интерфейсом 0-20мА, модель 886A01
Адаптер предназначен для подключения аналоговых датчиков, передающих сигнал изменением протекающего подробнее...

Цена: 3 354 руб.

NetPing датчик качества электропитания 1-wire 910S20
Датчик предназначен для мониторинга качества электропитания в розетке. Датчик должен быть подключен подробнее...

Цена: 2 240 руб.

NetPing удлинитель-разветвитель 1-wire на 5 портов, модель R912R1
Активный удлинитель-разветвитель для подключения датчиков 1-wire к устройствам NetPing5 портов для подключения подробнее...

Цена: 1 400 руб.

Устройство NetPing 2/PWR-220 v12/ETH
Управляемый блок удаленного распределения питания по сети Ethernet/Internet (IP PDU)2 независимые управляемые подробнее...

Цена: 8 157 руб.

Устройство NetPing 2/PWR-220 v13/GSM3G
Управляемый блок удаленного распределения питания по сети Ethernet/Internet (IP PDU) c поддержкой управления подробнее...

Цена: 15 700 руб.

NetPing датчик наличия электропитания 995S1
Датчик позволяет определить наличие напряжения в розетке питания. Выполнен в корпусе блока питания с подробнее...

Цена: 1 224 руб.

WLC10 кабель протечки
Чувствительный кабель для использования совместно с датчиком VT592. Может быть смонтирован в труднодоступных подробнее...

Цена: 6 700 руб.

VT592 кабельный датчик протечки
Датчик предназначен для работы совместно с кабелем протечки WLC10. Возможность подключения датчика как подробнее...

Цена: 3 800 руб.

-+ руб. руб.
Итого руб.

Данные о заказе