中国领先的IT技术网站
|
|

构建数据中心关机程序,做好最坏的准备

尽管政策和流程对于现代IT至关重要,但数据中心管理员通常因为中断事件而措手不及,没有关闭需要关闭的设备。但是,企业准备和响应设施关闭的方式可以避免灾难带来的损失。

作者:佚名来源:UPS应用|2017-08-08 13:57

【51CTO活动】8.26 带你与清华大学、搜狗、京东大咖们一起探讨基于算法的IT运维实践


数据中心关闭清单有助于IT团队在插拔硬件,并在丢失有价值的信息之前专注数据备份,测试和系统验证。

尽管政策和流程对于现代IT至关重要,但数据中心管理员通常因为中断事件而措手不及,没有关闭需要关闭的设备。这种需求可能像暴风雨即将来临一样剧烈,或者仅仅是一次普通的市政电网升级。但是,企业准备和响应设施关闭的方式可以避免灾难带来的损失。

经过精心设计和测试的数据中心关闭程序在业务连续性规划中起着至关重要的作用。它定义了迁移或关闭应用程序,保护有价值的数据,关闭物理系统的最佳过程,然后在事件或故障之后重新启动它们。以下考虑在一个基本的关闭文档中找到的主要元素。

构建数据中心关机程序,做好最坏的准备

验证和更新系统文档

每个数据中心关机过程都是最终重新启动的前提,所以适当的准备是确保一旦中断时间结束后重新启动成功的关键。创建一个全面的(或至少是现有的)文档集,可以捕获每个系统的卷,操作系统和应用程序配置,特别注意重新启动期间可能或意外更改的任何内容。创建此文档有无数工具,大多数现代配置管理和执行工具可以捕获和报告系统状态。不要忘记捕获或记录任何网络设备或存储阵列的配置。

管理依赖关系

组织和数据中心设施之间的实际依赖性差异很大,因此IT规划人员需要确定包括网络设备,存储阵列,DNS服务器,备份服务器和调度程序在内的启动顺序。一旦所有必需的服务器,存储,网络和关键服务(如DNS)重新联机,启动顺序就可以重新启动应用程序(如数据库),然后是依赖的应用程序(如企业销售系统)。然后,启动依赖于这些应用程序的任何流程,例如企业的店面网站。

在准备过程中,还可以识别和了解数据中心内各种各样的依赖关系。记录依赖关系允许IT人员以适当的顺序重新启动系统,服务和应用程序,以避免中断和启动时间的损失。例如,工作人员不想在启动依赖的存储阵列之前启动服务器。

执行并验证备份

备份是任何数据中心内的一个重要过程,但在计划的设备中断之前,固态备份工作至关重要。在关机开始之前完成,并验证任何定期安排的备份,并手动备份在关闭之前未定期备份或具有长时间恢复点目标的任何系统。

传统的备份方法可能寻求捕获每个服务器的操作系统状态以及单独的数据备份,例如SAN上的数据。虚拟化数据中心可以选择更新的最新虚拟机感知备份,例如快照和远程复制。没有一个适当备份的方法或措施,这个流程和底层工具必须适合企业自己的数据中心和业务需求,但关键是要确保所有的备份都被备份,并测试这些备份验证它们是否完整和可恢复。

如果准备时间有限,请专注于关键任务备份。但是,任何未备份的系统或数据都将为应用程序和业务带来风险。

检查和验证系统硬件

准备数据中心关闭清单的第三步是检查硬件状态,并识别任何硬件故障。现代系统管理工具可以生成电子邮件或邮件系统的错误报告,将事件记录到日志文件中,甚至可以在全面实时仪表板上跟踪事件。但并非所有事件都能立即处理。例如,RAID6组的RAID5中的磁盘可能会失败,并重写到另一个备用磁盘,但技术人员可能需要一段时间才能更换和重建故障磁盘。在可能将虚拟机工作负载迁移或重新启动到其他可用系统的服务器上也会出现类似的问题,但是由于尚未处理,故障系统可能仍然存在问题。

对错误日志和仪表板的审查也不会解决这些问题,但它会在关闭之前发现任何问题,提醒IT人员这些问题不是由停机时间或重新启动引起的。IT人员可以作出明智的决定,以便在停机之前解决悬而未决的事件,或至少确保没有解决的问题不会影响重新启动。

以正确的顺序关闭系统

一般来说,成功的数据中心关闭程序从IT环境的外围开始,再向内运行。组织可以首先注销和关闭终端用户,应用程序,如Web服务器,Exchange等服务,然后关闭数据库和中间件。在此之后,在虚拟化环境中可以关闭虚拟实例(如虚拟机或虚拟机),其次是VMware vCenter或Microsoft System Center等管理工具。只有IT团队才能关闭物理服务器。一旦服务器关闭,IT团队就可以关闭存储和网络设备。IT团队再关闭不间断的电源系统,显示器,配电单元和其他辅助设备,最后结束关机。

恢复和验证系统

当计划的中断结束后,IT团队可以实施重新启动过程。在理想情况下,重新启动将与关机顺序完全相反,但并不总是如此。重新启动通常需要小心谨慎,以便将电力重新分配到设施中,并防止可能断路器跳闸,以及和损坏设备的巨大浪涌。每个主要步骤还需要进行一些验证或测试,以确保设备或软件在执行下一个启动步骤之前正常运行。

例如,在尝试启动任何存储阵列之前,打开网络设备并确认其已正确引导。一旦存储阵列打开,请检查是否有任何故障磁盘,有问题的磁盘组和其他可能的问题。

【编辑推荐】

  1. 你知道数据中心宕机的真正成本吗?
  2. 避免数据中心的停机 节省真金白银!
  3. 节能高效的数据中心多模UPS系统
  4. 高效率的快速部署 玩转模块化数据中心
  5. 深度学习推动数据中心功率密度
【责任编辑:IT疯 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

视频课程+更多

热门职位+更多

读 书 +更多

SQL Server 2005奥秘

本书是作者深入研究SQL Server 2005数据库体系结构和内部机制的经验总结。 全书不拘泥于具体的管理操作,而是通过对存储的数据和日志文件...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× 官方软考报名与培训中心