预防数据中心系统宕机:请把IT人员当人看!

服务器 数据中心
依我过去几年所见,系统宕机最主要成因是硬件故障。不管是服务器硬件还是基础设施(数据中心电源或者制冷设备),硬件故障使得系统损坏,造成运行中断,比用户人为错误或者软件配置错误造成的故障都要多。

依我过去几年所见,系统宕机最主要成因是硬件故障。不管是服务器硬件还是基础设施(数据中心电源或者制冷设备),硬件故障使得系统损坏,造成运行中断,比用户人为错误或者软件配置错误造成的故障都要多。

  工作人员的士气遭受了宕机的挑战。在宕机时,必须支持鼓励工作人员的工作,使他们有足够士气修复错误,令服务重回正轨,至于批评还是留在解决完问题之后吧。当IT人员肩负压力,努力解决宕机时,管理层不能揪住他们的脖子说:“这都是你们的错!怎么还没修好?”这会让他们精神崩溃的。不如等机器运转正常,服务恢复之后,开个会好好讨论一下故障的起因、解决措施,做好决议。

  诊断和解决运行中断,确实比起日常的管理压力要大。对于管理层来说,让IT人员加班加点修复,在短期内把问题解决,这样做会导致IT人员身心的双重疲劳。由此可能会导致更多问题。

  管理层应当意识到IT人员需要付出多少额外的努力和时间,并公开承认这事实。所以应当给他们一定的休假来补偿加班花费的额外时间,总之要把他们当人,而不是当机器人。

  做好计划可以减少宕机。比如说:时机合适的管理步骤改变,造成计划内的运行中断要好于意外断电。

  在技巧方面,敏捷的头脑最为重要。打破惯例思考问题,尽可能快地提出解决方法。有时候修复也与“大力胶铁丝网”有关,这也可以,只要你能做出计划好的维护窗口期,能够应对长期解决方案就行。

  最糟的状况 ***的方法

  我们知道了,预防宕机没有绝对的方法。人和装置太多,对于各个因素的依赖也越来越多,导致公司已经无法控制。所以预防系统宕机的工作固然重要,仔细考虑发生宕机以后每一步该做什么同样重要。宕机之后,有很多东西值得学习,明智的企业会通过宕机,吸取教训,提升自己。

责任编辑:张玉 来源: TechTarget中国
相关推荐

2018-07-18 10:18:01

数据中心负荷计算系统

2017-10-26 08:25:26

数据中心系统内存

2018-10-22 09:22:53

2015-09-07 11:37:31

数据中心宕机集成系统测试(IST)

2017-01-16 14:58:48

数据中心SDDC

2012-12-12 10:03:32

数据中心虚拟化云计算

2010-07-06 22:42:35

2015-10-23 09:23:38

数据中心经济移民

2012-02-16 10:04:07

数据中心云计算

2013-09-27 09:53:12

一体式数据中心系统趋势

2012-11-21 13:10:20

燃料电池数据中心Microsoft

2017-09-01 17:03:32

数据中心宕机事件中断

2011-09-14 09:44:06

数据中心以太网数据中心网络

2018-11-14 10:48:52

苏宁管理系统服务性能

2017-09-28 10:49:24

数据中心网络重构

2012-09-06 17:10:34

数据中心华为

2021-05-27 09:38:02

数据中心电源宕机

2017-07-28 08:36:15

数据中心成本

2010-12-24 18:09:39

2011-10-13 09:58:04

黑莓数据中心宕机
点赞
收藏

51CTO技术栈公众号