机房环境监控的最佳实践和四项注意

服务器 数据中心
在《构建数据中心最严密的监控系统的几个维度》中,我们讲到了机房监控需要注意的传感器设置点,在本文中我们会接下来讲传感器还需注意什么,同时给出四点关于监控的最佳实践。

在《构建数据中心最严密的监控系统的几个维度》中,我们讲到了机房监控需要注意的传感器设置点,在本文中我们会接下来讲传感器还需注意什么,同时给出四点关于监控的最佳实践。

  数据中心环境监控的几个角度

  4、通过其他传感器整合环境。温度和试读/液体传感器只是智能数据中心环境监控的起步。很多地方需要消防警报。这些警报通常连接了建筑的灭火系统,它们也可以被整合进数据中心监控系统,让管理者发现火警立刻采取行动。

  同样也要用PDS(电力分配系统)监控能源,然后整合所得数据。能源监控可以支持持续评价数据中心PUE,帮助IT部门尽早介入能源错误。有的数据中心还检查整合智能UPS系统的数据,还能追踪UPS电池和告警情况。

  房间和机架通行传感器可以查出哪些人未经授权进入机房,在必要的时候还会召唤保安。至少简单的物理传感器可以记录开关门情况,缩小在特定时间的人员进出范围。

  5、管理告警。正常运行时间和能效是衡量环境监控的标准。因为查找错误,或提前检测来预防故障是数据中心的关键任务。管理良好集中的系统能让管理者很快应对紧急事件,保持高度正常运行。创建中心告警系统也对数据中心正常运行有很大意义。好的告警系统可以优先处理关键问题,对后果最严重的潜在时间优先对待。当配置好告警系统,要评价和指定每个报警对于业务和操作的影响。

  6、远程数据中心监控。远程监控能帮助组织时刻注意他们的后背环境,或者把监控管理工作外包出去。观察远程设施健康状况的能力能帮助IT管理者对紧急时间做出更快的回应,使环境回复正常。

  数据中心监控的最佳实践

  记住:数据中心监控架构需要定期维护和测试--就像任何设备一样。另外,适应数据中心的进化,不要把传感器放好了就不管。这里有一些关于数据中心环境监控的实践。

  1、测试和维护。所有传感器都得定期测试维护。不稳定或有问题的传感器必须及时替换。有一种测试方法是看其他类似传感器的报道。当一台机架内几个传感器报告同时报告同样温度,但是有一个传感器却与其他相异,那就得检查了,当然你也得看看是不是机架本身有问题。

  2、随时准备面对紧急状况。传感器本身不能防止紧急状况发生,所以你还要做好常规的计划。灾难恢复计划就得包含在内。你得知道数据中心运维团队是哪个,如何最快找到他们。当发生制冷故障,你得先找HVAC工程师。还得仔细描述问题。说道紧急故障,那可真是分秒必争。

  3、准备好后备计划。监控系统能设置不同级别的告警。如果数据中心是在托管环境,就得在服务级别的合同中指定紧急状况。托管商必须有意外事故的计划,以面对突然发生的问题。在私人数据中心里,总有传感器监控和告警系统运作。制冷装置可能会在紧急状况发生时保证本地后备部件--即使这意味这是用临时便携制冷设备。

  4、自动化恢复计划。有的监控系统整合了自动系统。一旦发生单独的机架事故,有的系统能关掉不必要的服务器。开发服务器通常好点很大,却不用在正常产品过程中运行。任何测试服务器如果不是必要的,都可以在紧急情况中关掉。

  随着数据中心进化,IT经理应该发掘更多自动化工具,来帮助环境长久运转。物理架构管理的自动化和中心化是数据中心设计运维的下一步。关键仍然在于策略性地保持正常时间。提前做好机房监控,IT管理员可以减少大量宕机危险。

责任编辑:张玉 来源: TT中国
相关推荐

2017-01-06 15:09:13

编程诀窍

2011-11-10 08:58:41

UML

2022-06-28 13:25:19

K8sPrometheusGrafana

2017-08-08 16:08:49

戴尔

2017-07-03 16:32:51

存储私有云云存储

2018-05-24 09:00:45

2011-07-20 10:26:36

Windows 8

2011-04-12 13:10:02

2015-12-14 16:36:10

斐讯

2011-08-29 09:37:29

小型企业平板无线

2015-05-28 10:44:18

小米影响

2018-01-02 09:53:59

SD-WAN广域网物联网

2015-06-04 10:13:56

DCIM运维管理

2022-01-18 10:55:36

云计算CIODevSecOps

2022-01-25 10:25:33

IT业务转型IT投资

2022-09-26 23:13:52

服务器数据安全

2023-08-28 10:49:49

2011-08-10 17:49:56

2015-11-17 09:18:33

谷歌机器学习开源
点赞
收藏

51CTO技术栈公众号