数据中心承载着大量的应用业务,每逢重大节日或者访问洪峰的到来都需要做各种保障,以防出现突发事件,对应用造成影响。比如:互联网电商的双11大促销,高中考网站的报名,APEC等重要事件等等,这些事件有的是时间节点特别重要,尽量不要出问题,有的是访问数据中心流量压力特别大,尽量不要出问题。所以一年时间下来,数据中心需要保障的大大小小事件的确不少,而且每次服务保障任务侧重点也有不同,如何做好这些保障工作,考验着数据中心的运维服务能力水平。本文着重介绍做数据中心服务保障工作需要依据五个原则,下面将逐条讲述一些原则,通过这些原则将服务保障工作做好。
首先,数据中心要对每次需要保障的业务弄得清清楚楚,抓住痛点,解决痛点。如果是大型的节假日,这时考验的是数据中心整体业务的稳定性,尤其是节假日哪些应用访问量会增大,要提前做预案,根据往年积累的经验积极应对。如果往年系统出现了这样那样的问题,一定在这次的服务保障之前消除掉隐患。如果是电商促销,就要关注集中时间内访问用户的数量,模拟大规模数量的访问用户,看系统是否可以承受,这时就要关注计算、带宽这些资源是否足够,可能不足的地方要及时补全。一个数据中心可能承载了数百个甚至上千各种应用,要明确哪些是需要服务故障的,哪些是重要的,哪些是次要的,应用的重要性要有分级。在不同的活动中,不同的应用重要性是有变化的,要及时进行调整,将重要力量投入到关键节点的保障上来。
其次,数据中心的设计和运维的人员要坐到一起,共同讨论保障事宜。业务运维的人要深入理解数据中心的系统架构,从全局的视角去对待服务保障工作。数据中心的规模和应用有大有小,投入上必要有差异。如果一个数据中心仅有数十台的服务器和小型网络设备,没有必要对整体服务保障大动干戈,准备一些备用端口和设备,万一关键时刻出了问题,及时恢复业务就可以了,不需要将过多的资源和精力投入到服务保障上来。数据中心做服务保障也要综合考虑,资金和人力也是需要衡量的重要方便,要用最少的投入得到最好的效果。掌握整体架构,对服务保障非常重要,避免各种应急方案在关键时刻失效,要尽可能将可能的突发情况考虑完全。数据中心要建立实时的监控体系,建设服务依赖的降级系统,建设具有冗余能力的架构体系,从整体架构层面做服务保障,这样可以避免将精力投入到某个特定环节中,而忽略了整体,而且架构层面一定具有冗余性,以便在出现突发情况时,有备份方案可选,将应用切割到备用系统上来,避免出现应用中断的情况。如果在服务保障期间,仍出现了较严重的应用中断事件,那服务保障工作就是彻底的失败。
第三,要丰富服务保障工具,现在的数据中心应用业务越来越复杂,简单地靠PING、TRACERT等命令有时也很难判断问题,尤其是应用层面的问题,所以有必要引入一些排查和监控的工具。正所谓“巧妇难为无米之炊”,工欲做其事,必先利其器,手上需要有一些独门“暗器”,在关键时候能发挥效用。现在工具已经从纯手工,经历工具化、系统化,直至容器化和弹性调度上,什么Scribe、Wtool等免费监控的管理工具都可以派上用场,要善于使用这些工具,通过这些工具对数据中心运行各种数据参数进行分析,服务保障才更有效。
第四,要关注新技术。每一次的服务保障都是发现数据中心隐患和弱点的最好时机,有时甚至要在服务保障之前做演练,以便能提前暴露隐患,及时进行纠正。当遇到一些困难时,要看是否有些新技术可以很好解决。现在数据中心的技术更新换代很快,这些新技术都是应对数据中心发展过程中遇到的新情况,当自己的数据中心也遇到这些问题时不妨考虑引入一些新技术解决问题。数据中心是当今信息技术发展的写照,不能墨守陈规,需改变的时候就是要做出改变。引进新的技术,不仅让自己的数据中心有耳目一新的感觉,也可以提升数据中心的应用处理能力。当然,引入这些新技术时也要保留谨慎,特别新的不成熟的技术要充分考虑引入风险,是否适得其反。在引入新技术的道路上,不能一下子步子迈得太大,要小碎步地快速向前跑,最终利用新技术的优势解决数据中心面临的各种问题。
最后,数据中心要做服务保障需要投入大量人力,有时单靠数据中心自己有些力不从心,毕竟有很多系统和设备都不是数据中心运维的人员所能掌握的,这时可以按照事情的重要性,请一些专门提供第三方服务的专业公司人员来数据中心做服务保障。这些服务公司有着丰富的服务保障经验,将任务交由这些公司来做,花钱省心,而且万一出了什么差错,还可以获得一些补偿。数据中心还可以将系统或设备厂商的人请来做服务保障,数据中心每年采购大量的设备,有时还会购买原厂人员服务,这些在服务保障时都可以用上。所做这些虽然投入的资金和人力会多一些,但在应对突发事情的处理能力上将大为提高。数据中心应该将各种内外部资源都充分利用上,做好服务保障工作。
以上介绍的是数据中心服务保障的五个原则,依据这五个原则指导服务保障的实际工作,将大大提升服务保障的质量。数据中心上的应用在特定时段特别重要,关键时刻不能掉链子,必须依仗这五个原则,切实做好服务保障工作。