对于固件的安全保障、风险管理以及制订风险防范方案的重要性来说,无论如何强调都不过份。做好事前准备、检测、冗余备份等工作并不断完善,可以使你或你的公司在数据安全及保障方面高枕无忧。
但突发事件总是不可避免的,八点九级地震或是海啸往往突如其来。而更严重的是,有时候这些灾害还会祸不单行。
这种情况当然是极为罕见的,很可能在你所处的区域甚至是不可想象的。然而,确实存在这样一类自然灾害,它不仅超过了现有的安全体系及减灾工作所能承受的极限,更是超出人类对于此类情况的防范规划的所有预期。简言之,有些负面状况是可以预防的,例如数据窃取、病毒感染等,但有些状况我们只能选择被动承受,例如大规模的国际性灾难、整体性政权瓦解乃至全国性的核泄漏事故。
有时即便面对那些极端状态如示威游行、恐怖事件等,我们对于保障安全尚有一线希望;但另一些突发事件则携着可怕的巨大规模猛烈袭来,能在一定程度上影响到世界范围的经济运转,并可能会以破坏全球市场联络纽带的方式,对数以千计不同国家、不同地区的公司造成毁灭性的打击。
由于日本民众在震后已经开始收集各种有价值的设备残骸,现在我们可以从中为世界各地的IT工作者及业务经理们总结出足够有说服力的大量经验教训。
#p#
9条值得思考的经验
1.雨水并不是惟一的用水来源
你可能并不居住在海滨城市,但在你的住所周边可能会存在着从飓风或地震的侵袭中幸存下来的水库。更重要的是,别忽略掉灾后为民众空投的各类物资。
#p#
2.建立必要的备用系统
如果你需要你的本地服务条码信息以便查询所需的资料,甚至是需要个人身份验证来核对数据中心中的个人资产情况,那么任何长时间的服务停机都会造成十倍严重的负面影响。因此我们需要构建一套备用系统,以保证即使在电力中断或服务器停机的状态下,仍能为查询者提供其所需要的关键信息。
#p#
3.公共资源短缺
灾难很可能在袭卷了你所在的区域之外,还在更广大的范围内持续肆虐,这时电力供应、电话及网络通讯、交通以及其它公共资源将在同一时间内广泛短缺。而面对上述一项或多项系统长时间无法运作的情况时,我们必须思考应当如何应对。
#p#
4.灾害情景模拟
提出应对计划当然不错,但进行情景模拟则能让防灾工作更进一步。从头至尾将灾害来临时的情景模拟出来并进行深入研究,包括灾后保险公司将如何反应以及你的法律支持团队又能否提出建设性的应对意见。
#p#
5.硬件软件预案
电源、冷却系统、硬件及软件本身是无法完成任何工作的。从国际性的自然灾害到一场相对猛烈的暴风雪,这些事件及并发影响都会从人力资源角度严重损害你的业务运营,至少就目前来看是这样。因此虽然针对这样的情况进行考虑不是什么美事,但我们无疑应该为此类事件准备一份完整的预案,甚至将内容细化到每一个人。
#p#
6.网络的危害
网络连接可以成为一种优势,同时也可能成为一种不利因素。如果你的网络供应商没能成功支持设备在灾难下的正常运转,你无疑会成为***的受害者。而如果你本身就是网络供应商,那么你所提供的服务或产品一旦无法正常工作,也会对你的用户造成极大的损害。
#p#
7.避难所
企业也可以成为英雄的化身。在大灾面前,你的企业没准能为民众提供关键性的服务,甚至为他们提供临时住房。
#p#
9.纠正错误
事实证明,能够及时纠正并贯彻实施(虽然效果不尽如人意)是一种比坚持一项(失败了的)计划更重要的处事方针。我们必须承认:没人能事前想到一切突发情况。把计划拆分成几部分,选择仍然适应当下情况的内容来加以执行,这是在残酷的现实已经超出掌控时,我们能拿出的***处理方案。
#p#
10.调整心态
我们应当学会调整心态,坦然面对:大灾实属罕见,并且破坏性集中表现为实物方面。不过坦然并不意味着心存侥幸。我只是想说,恐慌并不是灾难所带来的必然后果,它只是在你还没有为之制定可行的计划之前,就强迫你做出决定(这就是为什么有些人并不畏惧酒店里的消防警报,却为在某个会议上被意外地要求发言而恐慌不已)的结果。
比起会计师给出的严肃权威的分析,风险管理(针对硬件设施及其它相关内容)其实***是由那些富有创造性和想象力的思想家来给出,因为他们会为你免费提出建议并对意外情况做出预测。培养你在危难关头的判断能力和应对最差情况的习惯,并在制造商和供应商中选取那些同样有此危机观念的伙伴进行合作,这些措施无疑比真正面对大灾时才想到做准备工作要明智得多。
原文标题:Restoration from the Ruins: Hardware and the facts of catastrophic system failure 作者:Monica Bower
【本文乃51CTO精选译文,转载请标明出处】
【编辑推荐】
- 51CTO专题:数据中心抗震记
- 地震现场报道:51CTO日本网友反馈
- 从日本大地震看数据中心防震技术