当你在制定数据中心灾难恢复方案的时候,你的目标是为了保护公司在信息技术、通信和人员方面的投入。一旦遭到破坏,你的数据中心要么是完全不受影响要么就可能遭到彻底的毁坏。
灾难恢复方案应该是灵活的、可扩展的,这样才能应对各种破坏场景。本文将提供数据中心的检查清单,并给出在灾难之后可以采取哪些行动的建议。这份清单将使得灾难恢复变得更为简单。当你在检查一次破坏性事件对你的数据中心产生的后果时,请务必参考这份数据中心的检查清单,或者是针对你自己的要求对它进行修改。当你完成了对于破坏情形的初步评估,并且对你的员工所处的位置满意之后,再开始根据灾难恢复方案采取行动。
制定数据中心灾难恢复计划时的若干假定
一项数据中心灾难恢复计划仅仅关注于数据中心的设施和基础设备,比如它的物理位置、建设、安全、能源、环境系统以及它的工作人员。你不光要考虑到数据中心运作的部分,也要考虑到支持它工作的人。这意味着在制定DR方案时,要满足以下条件:
- 数据中心技术和管理人员,包括所有的班次
- 数据中心的建筑(比如,物理的基础设施、建筑物、出入口位置、提升地板的区域)
- 建筑的位置(比如,进入路线、离高速公路、火车线路、飞机场有多近,离燃油储存柜的距离)
- 电能的产生(比如,商业用电、备用电源系统)
- 电能保护(比如,接地及连结、避雷针、线路调节器、电涌抑制器)
- 环境(比如,供暖、通风备以及空调)
- 关键系统(比如,服务器、配电装置、VoIP系统、呼叫中心系统)
- 网络设备(比如,电缆、连接器、路由器、铜和光纤线路、电缆架)
- 安全(物理进入和信息安全)
- 工作空间(比如,办公室、会议室、办公小隔间、家居、照明)
- 防火(比如,火灾探测器、烟雾探测器、灭火器、FM200灭火系统)
- 建筑楼层和墙体(耐火墙、提升地板)
- 公共设施(比如,水、电、下水道、通信)
提升面对紧急情况时候的响应能力
作为灾备规划中及时响应的一部分要求,当我们在制定响应行动计划的时候,如果房屋是租赁的或者自有的,那么需要和房屋管理部门或者设施管理部门协商,除此之外,IT部门也需要沟通。制定好响应计划后,还需要复查一下和内部以及外部资源进行充分沟通以确保所有部门都万无一失。
在灾难恢复计划设计过程中需要考量的因素如下:
-和不同IT部门之间的关系,比如内部技术团队,应用团队和网络团队等。以确保所有日常使用数据中心设施的团队部门全部都在灾难响应流程里。
-与外部股票持有者之间的关系,比如厂商以及服务提供商。
-如果公司油气田办公室的话,和其他办公室之间的关系特需要考虑进去,因为他们也可能会是灾难恢复规划中的一部分。比如说要提高另外的数据中心机房等。
-和架构相关的文档,比如说建设规划,楼面规划,系统视图,网络拓扑以及设备配置信息等。
在灾难响应的制定中需要考虑到以下的几个方面:
1.管理层对数据中心最有威胁的几个方面的认识,比如火灾、人为操作不当、断电、系统故障和安全问题。有可能管理层开始做的预想不符合实情,但需要在后面快速做出正确的改变。
2.管理层需要意识到数据中心里最容易出问题的环节,比如说,陈旧的备份电力保障系统。
3.之前数据中心故障的处理结果,比如,如何应对情况的以及我们从中学到了些什么。
4.管理层对数据中心宕机能接受的最长时间是多少。
5.行业现有的应对数据中心宕机的准则是怎样的。
6.从其他数据中心灾难恢复经验中学到的。
7.受训过的数据中心紧急响应团队处理突发事件的能力。
8.主数据中心和备用数据中心服务提供商的紧急响应能力以及两个数据本身的紧急响应能力。如果之前使用过,那么当时用的时候遇到过问题吗?此外还需要了解服务的成本以及服务合同目前的情况。
#p# 数据中心检查清单:响应概要
在遇到数据中心宕机的初始阶段,我们可以参考如下的清单来判断我们需要做什么。具体需要根据发生的事情的情况来决定选择哪些步骤以及其顺序是怎样的。比如说,掉电故障应对的步骤和火灾应对的步骤就不太相同。在制定灾备计划的时候,请考虑到如下的方面。
场景 1: 电源故障
场景2:服务器故障
场景3:数据中心火灾
#p# 大规模灾难的响应清单
如上所描述的响应顺序多半是应对典型的数据中心灾难。不同的企业组织遇到不同情况的时候需要采取的响应步骤也不尽相同。因此在采取响应措施的时候需要灵活处理,根据遇到问题的特点和严重程度来修改响应步骤。
在应对较大规模数据中心灾难的时候可以参考如下的数据中心清单。在做这些步骤之前,需要根据具体的问题参看之前建议的步骤,并确保这些步骤也在灾备计划中。
响应清单:建筑物损毁
以上步骤的前提是相关的方案已经被制定出来,用于针对列出来的各种场景,比如邮件系统恢复,硬件和软件系统恢复、数据恢复、文档恢复和搬到另一个数据中心。
灾难后的评估
一旦情况得到了缓和,恢复过程可以开始之后,就应该评估这个事件,确认发生了什么,采取了什么行动,还有什么没有做。要经常地组织和开展实用性的会议以帮助汇总一些重要的数据,因为有些可能在后面的保险索赔甚至法律诉讼上需要用到。
补充的数据中心灾难恢复规划资源
根据需要制定的详细程度不同,数据中心灾难响应的过程可以非常复杂。一个让过程变得更容易的方式是看看现有的标准以及数据中心操作流程。下面将列举三条有用的准则:
- 标准与科技美国国家实验室的SP 800-34标准 “信息技术系统应急计划指南”
- 2008年国际标准化组织标准ISO 24762 “信息与通信技术灾难恢复服务指南”
- 2011年国际标准化组织标准ISO 27031“信息与通信技术业务可持续性的准备指南”
在规划一个数据中心灾难恢复计划的时候,需要注意下面的几点:
1.需要得到高层管理的支持,这样计划就会有资金上的扶持,有文件证明并且能被有规律的执行。
2.认真的执行数据中心灾难恢复过程:计划不需要很长,但需要包含现在准确的信息。
3.在流程中考虑使用曾经使用过的标准。
4.在收集并整理了足够的正确信息后,尽可能的让流程简洁明了。
5.制定好流程后和其他核心部门再共同审阅一次,以确保对环境的估计准确无误。
数据中心受损将可以严重的影响到业务的正常运行。当有些公司决定通过再建一个新的机房或者从第三方机构租赁一个机房作为灾备方案的时候,我们建议详细评估数据中心的运用情况以及潜在风险,这对灾备过程的开始是有着重要意义的。当我们有着一份做足准备的灾难恢复计划在手,尤其是包含有详细的复原和恢复的步骤,这对让数据中心受损程度最小化是有很大帮助的。
【编辑推荐】