你干什么吃的!详解数据中心的人为失误

服务器 数据中心
作为IT工作人员,由于人为原因所造成的数据中心上的损失是不可避免的。由于人不会像机器一样精确无误,随着工作时间和工作压力的增加,不可避免的就会出现一些错误或者疏忽,从而引起数据中心的一系列问题。

[[15614]]

“你干什么吃的!”

相信每个上班族都有这样被领导训斥的经历。由于个人的失误,导致工作中出现各种不该犯的错误,从而受到领导的批评。作为IT工作人员,由于人为原因所造成的数据中心上的损失是不可避免的。由于人不会像机器一样精确无误,随着工作时间和工作压力的增加,不可避免的就会出现一些错误或者疏忽,从而引起数据中心的一系列问题。(51CTO推荐阅读:看这些数据中心错误有多蠢!

不过,如果我们能够在设计以及预防上采取一些措施,这些人为的错误是可以越来越少的。

限制访问人数

限制进入数据中心的人数,是减少认为错误一个不错的开始。在几乎所有的企业中,只有一小部分的工作人员需要一直呆在机房里。而其他人应该限制进入。虽然。很少有人进入数据中心后会故意产生恶意的行为,让除了工作人员之外,限制其他人的进入是一个不错的管理方法。他们可以凭借钥匙卡或者是密码在需要进入数据中心的时候进入。

绝大多数的人为错误并不是有意的行为,可能只是人们在不经意的时候碰了一个按钮,或者将不小心将线路缠在了一起,而这些不经意的动作往往会产生灾难性的后果。

将那些数据中心里的重要设备锁起来也是一个不错的方法。只有重要的工作人员的需要的时候才能访问它们,这也直接避免了这些设备上可能会产生的人为错误。#p#

非IT人员的培训

另一方面,由于工作的需要,会有很多非IT的人员进入到数据中心里。例如,定期保洁人员,电工以及其他工作人员。

这些人进入数据中心就必须要取得该环境下工作的许可。仅仅靠符号的警示是不够的,必须要对这些非IT人员进行专门的培训,让他们知道什么可以碰什么不能碰。

另一方面,大多数数据中心将仍然被访问的非IT人员-定期保洁工作人员和其他场合的电工和技术人员。这些工人必须听取他们对环境的即将进入。如果这些非IT人员没有得到应该的培训。可能会发生以下的情况。保洁人员可能会因为吸尘器找不到插座而将UPS的插头拔掉。如果这个时候数据中心发生断电,那么这个后果无疑是灾难性的。

对于电工等技术人员来讲,不仅仅要让他们知道什么不能碰,还应该让他们知道如何更好的保护设备。这样他们才能在施工的时候,对设备的影响达到最小。#p#

设计与环境

就像家庭设计中针对儿童安全的环节可以有效的减少孩子们发生意外一样,数据中心的布局和设计也是影响人为错误产生的重要因素之一。

例如在数据中心设计设置温度和湿度的自动监控是一个能够有效减少人为错误的方法。这样大大减少了工作人员在数据中心内需要亲自操作的次数,也就减少了发生人为错误的几率。

另外,任何按钮,例如紧急断电,一旦不小心将它启动了。应该有一个可以中断这个进程的设置,而不应该是不可中断的。这也为一不小心发生的人为错位提供了补救的机会。

尽管很多工作都可以通过远程进行直观的操作,但有时候进入机房内仍然是不可避免的。所以,当工作人员进入服务器机房的时候,贴上标签是减少人为失误一个行之有效的方法。

另外,物理上的防护有时候也十分的重要。例如,保险杠,保护栏杆等设施可以有效的保护设备收到不小心的撞击,以保证正确的运行。#p#

注重每一个细节

有个很奇怪的现象,日常的操作往往是最容易产生人为错误的时候,而人们产生这些错误的时候往往是任务快要完成的时候。因为往往是这个时候,人们往往会产生疏忽的心里,只想快点完成任务而忽略了一些应该注意的细节。

而日常操作的每一个细节都是很重要的。例如,忘记一个驱动器的备份或者错误的磁盘交换都会导致很严重的后果。虽然,这些行为往往都是日常任务的最后一步。

所以在进行日常操作的任何一步都不能疏忽,每一个细节都可能会对结果产生很大的影响。#p#

减轻工作人员的压力

当工作人员的压力过大时,也是人为错误发生最为频繁的时候。在巨大的工作压力下,工作人员很可能会忘记一些应该注意的事项,从而产生一些不必要的疏忽。

而在数据中心的内部,往往会有一些很严厉的惩罚制度,是针对那些人为错误的。而这恰恰会给工作人员带来巨大的压力。如果长期在这样巨大的压力下工作的话,往往会起到反作用。

所以,在数据中心内,制定严厉的措施并非会起到良好的效果。而适当的给那些工作在这个环境下的工作人员减压是一件很有必要的事情。只有这些工作人员在舒适的环境下工作,才能保证数据中心的正常运行。#p#

吸取以前的教训

很少有企业在公共场合宣布,它们的数据中心曾经发生什么样的重大事故。往往是造成了一些严重的后果才会不得不出来解释。可能是为了维护企业的形象和保持那些潜在的客户。而同这一现象形成鲜明对比的是航空业,航空业每次事故后都会努力调查事故的原因,以保证他们以后再也不会出类似的问题。

但是,即使企业不去公布自己的数据中心事故,但是公众的力量是可怕的。等到公众发现这些事情的时候,事故造成的影响力要比企业自己去公布大的多。

有句谚语说的很好,那些不承认错误的人注定要重复它。所以,只有更好的认识到以前发生的错误,才能更好的避免错误的发生。

【编辑推荐】

  1. 看这些数据中心错误有多蠢!
  2. 搬次家扒层皮 老外谈数据中心搬迁问题(图)
  3. 停机?别慌!解析数据中心停机成本
  4. 如何提高PUE值 数据中心能耗详解(图)

 

责任编辑:景琦 来源: 机房360
相关推荐

2023-09-21 15:54:55

数据中心

2015-06-04 10:35:39

数据中心

2009-02-01 08:34:12

谷歌搜索故障

2013-04-25 11:52:34

数据

2015-09-23 09:28:24

2012-06-11 10:02:35

2014-01-06 09:48:40

2015-12-04 09:40:26

数据中心运营

2018-09-21 11:34:42

灾备

2022-12-02 14:57:15

物联网物联网平台

2023-10-07 14:51:46

物联网物联网平台

2020-04-17 10:45:21

数据中心IT技术

2010-06-18 16:33:08

数据中心防雷

2011-04-27 14:50:36

HTML 5

2009-06-09 09:29:33

2021-06-08 08:11:47

数据中心UPS供电系统

2015-12-10 10:14:10

运维自动化DevOps

2018-09-25 04:51:21

2015-10-26 10:22:49

微信腾讯用户行为

2017-07-13 18:13:48

信息泄露Verizon
点赞
收藏

51CTO技术栈公众号