如何设计一个易于维护的数据中心?

服务器 芯片
许多成功的组织都认识到,为了维持业务的连续性必须为运营和维护(O&M)团队提供一切必要的工具和资源。这就意味着需要设计和建造一个同时具备维护功能和容错功能的设施。

许多成功的组织都认识到,为了维持业务的连续性必须为运营和维护(O&M)团队提供一切必要的工具和资源。这就意味着需要设计和建造一个同时具备维护功能和容错功能的设施。但这仅仅是开始。O&M团队还需要其它工具和资源,以便于在设备15年至20年甚至更长的生命周期内对其进行适当的操作和维护。

业主不应该孤立地看待这些问题(首先是设计和建造,其次是筹备工作团队和资源)。与之相反,从开始编制方案阶段直至设备使用周期结束,这两方面都应当被视为一个整体。实际上,就是要开发一个经过深思熟虑的进程,并把设计建设和O&M之间所有的相关性和需求都统一考虑进去。

这个方法源于一个名为“基于可维护性设计”的理念。把O&M需求作为初始规划进程的一部分来进行确认,您可以发现并利用这些重大的机遇。设计建设的设施必须提供物质保障,以满足O&M团队的需求,同时O&M组织必须具备一定能力,以满足设施的需求。这要从业主项目需求(OPR)文档开始入手。

数据中心业主项目需求文档

OPR文档记录和描述一个项目的功能需求。这份文档主要包括系统冗余、无远距离操控工具时的运营能力(主要考虑所允许的最远距离)、空间规划和使用以及使用级别等高层次需求。这份文档还应当将O&M因素考虑在内,如系统/设备的命名规则、数值和开关标记要求、存储和备用部件需求以及实际建造和完工文件需求等。在方案规划阶段就必须将这些需求要素考虑进去,这样,项目的设计和建造团队就必须确保项目能够提供物质基础和O&M基础,从而确保业务的连续性。

一旦人们认识到基础O&M需求的必要性,那么早期规划在节省资源方面的优势也就变得明显了。将O&M需求与设计建造相结合,不仅可以确保这些需求能够及时到位,而且还节省了时间、劳动力和资金。维护步骤和计划的开发、O&M团队的培训、备用设备的供应以及服务水平协议(SLA)的创建都是很好的例子。

在设计阶段组织计算机化的维护管理软件

在计算机化维护管理系统(Computerized Maintenance Management Systems)的运用过程中,人们进行了如下尝试:有时是某种妥协式的成功,有时会导致预算计划崩盘,而有时则是彻底的失败。在许多情况下,根本问题在于缺乏合理的规划和深谋远虑。最易于组织一个CMMS方案和制定命名规则的时间是项目的设计阶段。这使人们可以在CMMS中使用惯用命名方法对施工文件和安装设备进行标示。收集必要的维修程序、需求工具和备用部件等相关数据的***时间在项目设备的递交过程,以及整理编写O&M手册和其他完工文档时。同样,在项目规划和设计阶段,通过项目小组对O&M需求的正式审议,这些O&M信息和文档需求都可以包含在合同文件中,从而确保承包商能够按时进行供应。

另外一个例子是在合同竞标阶段服务水平协议( SLA)的谈判。业主可以要求供应商将长期维护提案作为他们前期建设提案的一部分,从而争取***的总拥有成本(TCO)。可以公开并作为整体合同奖金中的一部分进行考虑的因素有:固定劳动利率、部件单位成本、最短响应时间、升级速度以及用于现场、技术人员车辆或附近所要求保留的关键备用件等等。与事后制定SLA相比,如果把SLA作为建造合同的一部分进行谈判,供应商通常会更具竞争力。

从施工文档至O&M的一致性

在文件中明确要求的运维流程质量也可以影响物理环境的构建。换而言之,竣工图应当包括设备的ID、数值和开关数,这些信息与O&M流程中引用的信息都必须保持一致,与现场所找到的实际标签和标示也必须保持一致。在设计和建设阶段期间,要重新构建这些常量工作量会很大,还增加风险。在整个设计和建设期间,通过强制执行这些命名规则,可以实现设备、数值和开关在安装过程中的***标记,当然这也同样适用于O&M 程序与CMMS系统的开发过程中。O&M手册与系统操作维护手册(SOMM)的编写同样也反映了这些一致性。

关键性的操作需要有详尽的流程,其中要求包括所有的预期操作方式。这些模式和配置通常可归类为“正常”模式、“维护”模式和“紧急”模式(有时为“恢复”)。其中必须反映出设计意图,并合理安排已安装的冗余以减少风险和优化成套设备的性能。这要从设计工程师关于操作次序的书面解释开始,受益于委托代理的功能测试和集成系统测试脚本程序,并在最终的O&M程序中结束。一般来讲,调试脚本验证工程师操作次序的正确性,而成功的调试脚本则可以验证O&M流程的正确性。

通过对这些开发流程的整合,由此产生的O&M流程将为O&M团队提供简明扼要的指导,用于在所有模式下进行操作。O&M流程中包含有:操作顺序、单线图和流程图、步骤流程(包括数值和开关号码)、对预期反应和结果的说明以及参考手册和附图等。此外,还要包括对于这些交付作为整个项目需求一部分的详细需求,而不是说单独解决这些问题就可以节省时间和精力并减少错误。

在数据中心设计阶段对工作团队进行现场培训

采取适当的方法对O&M团队进行培训是保证设备持续运行的先决条件。根据文档记载,大多数对关键设施影响巨大的事件,都是人为造成的。如果在创建了一套设施之后,就引入一批新进的仅仅进行了若干小时或若干天普通培训的O&M团队,并且还奢望他们具备合理操作这些复杂基础设施的必要技能和知识,就显得非常不合理了。相反,O&M工作团队的培训和定点教育必须在设计建造阶段就开始,目标就是对工作团队进行全面培训,使其在开始关键操作的首日就具备能掌握所有必须的信息、文档和资源。

***步应当是确定O&M团队并将他们分配至现场,让他们尽早地参与到项目中。工作团队成员应当熟悉OPR文档,从而如之前所讨论的那样确保O&M的相关需求都已考虑周全。此外,他们必须随时关注设计和建造的O&M可交付资料的新动态,以便于更好地利用之前所述的机会。他们应当参与到现场巡查中,并坚持在整个建造过程中进行检查和支持调试脚本的开发,并积极地关注和参与设施的启动和试运行,其中包括工厂见证试验、流程检查、预功能测试、功能测试以及集成系统测试。在完成这些活动期间,O&M团队要准备好接受正式的定点O&M培训,同时这些培训必须在于现场正式运行前大体上完成。

这一战略提出了一个循序渐进的培训过程,在这个培训过程中O&M团队能够对设计意图、建造设施、操作方法和维护要求等方面进行完全的了解,能够得到全面的培训,并在首日组建完成。正式的培训必须进行视频记录,并包括在整个设施的使用周期中可以进行进修培训、辅导培训和新进员工培训的所有书面材料。

以终为始

根据Steven Covey的著作《高效人士的7个习惯》,“以终为始”是很重要的一个要素。我们的最终目标并不是设计、建造、调试和交付一个关键设施,而保证设施在整个生命周期内持续的运行,从而实现对关键任务的支持。因此,采用综合的方法来对一个关键设施进行设计、建造和交付才是最有意义的,而这样的一个关键设施也可以提供***的价值和***的业务连续性。通过对设备的可维护性设计以及对实际设施的设计建造O&M需求,您可以节省大量的时间和金钱,提供预期的功能,交付高质量的产品,并且从一开始就能在设施和工作团队具备***性能和最长正常运行时间的状态下运行。

【编辑推荐】

  1. 私营数据中心有可能会消失
  2. 08年20%以上数据中心使用虚拟化
  3. 虚拟化加刀片服务器等于未来的数据中心
责任编辑:符甲 来源: TT中国
相关推荐

2015-09-21 13:19:22

数据中心灾备

2024-01-12 16:01:01

数据中心

2023-09-21 17:28:38

数据中心

2018-07-18 10:07:51

数据中心机房维护

2021-10-19 09:32:08

云原生数据中心网络

2019-11-25 11:02:43

数据中心IT技术

2017-09-02 07:22:50

数据中心机房服务器

2020-03-04 10:48:22

数据中心维护外包网络

2019-11-27 10:36:23

数据中心边缘计算技术

2023-04-24 12:57:01

数据中心综合布线

2023-06-15 15:45:50

边缘计算数据中心

2024-01-30 00:42:29

数据中心IT基础设施

2015-09-08 10:28:52

数据中心资源清单

2015-12-14 10:01:48

数据中心

2010-09-06 09:53:52

数据中心

2014-02-18 14:41:55

数据中心高效节能

2022-05-24 15:30:46

数据中心

2017-07-24 16:55:42

闪存数据中心SSD

2012-05-28 09:58:15

云计算数据中心

2023-08-08 14:49:12

点赞
收藏

51CTO技术栈公众号