Jste zde

Monitoring teploty v IT: jde o čas

Monitoring provozu IT technologií má řadu standardních nástrojů a postupů, které podobně jako kuchyňské recepty vyžadují rutinní znalost a zkušenost nebo značnou dávku improvizace. Lze to názorně ukázat na monitoringu teplot, který při správném provedení správci systému pomůže získat čas a možná i další devítku v magickém čísle 99,999.

Kde je problém?

 
Při pohledu na serverovnu nebo rack okem termokamery se projeví složitost prostředí. Jednotlivé aktivní technologie odvádějí teplo v pseudonáhodném rytmu podle zatížení procesorů, tím mění zatížení napájení a zároveň zvyšuje teplotu na napájecích panelech a UPS. Vydechované teplo navíc ohřívá vzduch uvnitř rozvaděče, takže se snižuje efektivita chlazení a narůstá i teplota dalších aktivních prvků. Spínají další chladící systémy a cyklus lavinového růstu teploty začíná. Přehřátí se začne projevovat neurčitými výpadky jednotlivých zařízení, protože prahové hodnoty jejich ochran jsou různé (teploty CPU 70-95 °C) a vliv okolí na ně není brán v potaz. 
 
Téměř každý aktivní prvek nebo server má v rámci svého softwarového vybavení možnost zjistit aktuální teplotu na CPU nebo zobrazit její aktuální průběh. Z tohoto údaje, stejně jako z údajů teplotního čidla v UPS, není možné zjistit proč teplota roste, s čím to souvisí apod. O překročení mezních hodnot je správce informován často až v okamžiku výpadku nebo po přechodu na nouzový provoz a to rozhodně nestačí.
 
 
Graf ukazuje postupný růst teplot v rozvaděči vlivem nevhodně provedeného chlazení – teplota nasávaného vzduchu je přitom konstantní (17 °C)
 

Monitoring teploty v rozvaděči

 
V každém exponovaném racku, kde hrozí přehřátí kriticky důležitých prvků nebo tam, kde již dochází k výše popsaným jevům, je vhodné začít monitorovat teploty. Nikoli teploty jednotlivých procesorů, ale teploty prostředí, které jsou pro řešení problému klíčové. Jde o teploty nasávaného vzduchu (z mezipodlahy, ze vstupu filtrovaného chladícího vzduchu atd.), teplotu u tepelně nejvíce exponovaných prvků (výkonné servery, napájecí panely, UPS…) a také teplotu v místě výstupu teplého vzduchu z rozvaděče. 
 

Kolik použít čidel teploty? 

 
Univerzální recept neexistuje. Vždy záleží na řešení konkrétní místnosti a také na konfiguraci rozvaděčů, jejich mechanickém provedení a  také na provedení ventilátorových jednotek.  Následující příklady charakterizují možná řešení.
 

Jedno čidlo v místnosti

Vhodné pro dohled klimatizace místnosti jako celku. Dohledujete ale spíš výpadek klimatizační jednotky, než teplotu serveru. Čas reakce se pohybuje od půl hodiny do několika hodin, podle parametrů místnosti. Ideální pro dohled výpadku jedné ze dvou klimatizací v místnosti. 
 
Umístění čidla: Výdech klimatizace / na zdi
 

Jedno čidlo v 19” rozvaděči (do 5 kW)

Dohled uzavřeného / otevřeného 19“ racku pomocí jednoho čidla teploty je ekonomické řešení, pokud nejsou v racku instalovány velmi výkonné servery. 
 
Doporučené řešení pro rozvaděče, kde celková spotřeba technologií nepřekračuje 5 kW a je garantována teplota vstupního vzduchu.
 
Umístění čidla: Chladič nejvýkonnějšího prvku / výstup vzduchu
 

Dvě čidla v 19” rozvaděči (do 10 kW)

Dohled teploty ve dvou bodech uzavřeného 19“ racku je výhodné řešení pro dohled jednoho zařízení a zároveň rozvaděče jako celku. Doporučené řešení pro rozvaděče, kde je celková spotřeba technologií do 10 kW. Pokud použijete kombinované čidlo s měřením vlhkosti, umístěte čidlo vlhkosti k nasávání studeného vzduchu. Měření vlhkosti u ohřátého vzduchu je zbytečné. 
 
Umístění čidla: Chladič nejvýkonnějšího prvku a výstup vzduchu
 

Tři čidla v 19” rozvaděči

Kompletní přehled o stavu rozvaděče. Umožňuje odhalit dlouho dopředu i problémy, jako je pokles tlaku vzduchu ze zdvojené podlahy atd. Obsluha z poplašného hlášení na první pohled pozná, zda se jedná o problém technologie uvnitř racku, nebo zda jde o problém datového centra. 
 
Z grafu vývoje teplot lze dokonce odvodit, že došlo k manipulaci uvnitř rozvaděče. Můžete tak snadno zjistit „ucpání“ prostoru pro chladící vzduch.
 
Umístění čidla: Chladič nejvýkonnějšího prvku , výstup vzduchu a vstup vzduchu (zde umístěte čidlo vlhkosti)
 
Obrázek ukazuje vhodné rozmístění tří čidel teploty v rozvaděči
 

Dvě čidla pro dohled vstupní a výstupní teploty serveru 

Dohled jednoho samostatného serveru je ideální pro majitele serveru. Sledujte i vstupní teplotu, při stoupající vstupní teplotě se dlouho nic neděje - server zvýší otáčky vnitřních ventilátorů. Jednou je ale už nebude kam zvyšovat a server se prostě vypne. 
 
Umístění čidel: Vstup a výstup vzduchu 
 

Kam čidla nejlépe umístit?

 
Pro dosažení co nejlepších výsledků je důležité vybírat nejvhodnější místa pro umístění teplotních čidel:
 

Výdech klimatizace
Když klimatizace přestane chladit a pouze ventiluje vzduch, stoupne zde rychle teplota z cca 16-18 °C na 19-20 °C a potom pomalu roste s ohříváním vzduchu v celé místnosti.

Poblíž chladiče nejvýkonnějšího serveru
Server, spotřebovávající nejvíc energie, potřebuje nejvíc ochlazovat. Pokud mírně klesne chladící výkon, v jeho okolí bude nejrychleji narůstat teplota.
 

Výstup vzduchu ze skříně 19” rozvaděče
Když dojde k výpadku klimatizace, nebo jen k ucpání otvorů pro vzduch (rozházené kabely), je to nejdříve patrné na teplotě výstupního vzduchu z 19“ racku. Pokud používáte perforované dveře a systém uliček, umístěte senzor nahoru.

Nejvzdálenější kout / nasávání ventilátoru 

Senzor umístěte dovnitř zařízení, poblíž ventilátoru, který tlačí horký vzduch ven do okolí. Pokud nedochází k dostatečnému proudění vzduchu, umístěte senzor do horní nejvzdálenější pozice od ventilátoru.

Optimalizace chlazení a měření

 
Údaje z jednotlivých senzorů a jejich vzájemná relace poskytují vždy cenná data pro optimalizaci mechanického uspořádání i výkonu chlazení. Klíčovým bodem je zde sběr dat a jejich vyhodnocení. Sofistikované průmyslové a laboratorní systémy nejsou pro tento účel nejvhodnější. Poskytují sice vysokou přesnost měření, ale většinou nejsou vhodné pro umístění do rozvaděče a jejich cena je neúměrně vysoká. Složitý bývá také přenos dat a jejich zpracování.
 
Pro účely IT jsou nejvhodnější senzorové jednotky s přímým napojením na Ethernet a integrovaným web serverem (příklad Poseidon2 - HW group). Správcům systémů tak poskytují přístup přes důvěrně známé prostředí, většinou včetně napojení do nadřazených dohledových systémů na bázi SNMP. Pro jednoduché aplikace bývá k dispozici cenná funkce odesílání dat prostřednictvím e-mailu a to včetně upozornění na překročení nastavených hodnot. Tato funkce je velmi důležitá. O překročení provozních teplot se správce dozví bezprostředně po jejich nárůstu a má tak čas na preventivní zásah v podobě omezení výkonu, spuštění přídavného chlazení nebo zásahu na místě. V každém případě tak získává hodiny či dny na řešení problému oproti stavu, kdy je informován až o výpadku.
 
 
Příklad zařízení pro monitoring teploty v rozvaděči s připojením na Ethernet (Poseidon2 – HW group)
 
Sbíraná data a jejich vzájemná relace většinou poukážou na nejčastější chyby v mechanickém uspořádání – mísení teplého a studeného vzduchu uvnitř rozvaděče, přisávání teplého vzduchu z okolí při zapnuté ventilaci, neutěsněné kabelové vstupy nebo chybějící separační rámy. Častou a banální příčinou přehřívání bývají i neodstraněné záslepky ventilačních otvorů. Odstranění chyb zvyšuje spolehlivost provozu rozvaděče a zároveň výrazně šetří energii. 
 
Průběžný  monitoring ale také dokáže spolehlivě a v předstihu odhalit i částečný výpadek či pokles výkonu klíčových komponent chlazení. Včasné doručení informace potom pomáhá správci předejít výpadku i poškození technologie.
 
Hodnocení článku: