在新技术层出不穷的今天,数据中心运维工作总是得不到足够的重视。数据中心在不出任何问题的情况下,对运维的工作是持默认态度的,但如果出了一系列问题,付出的工作可能毁于一旦,工作的绩效有点要拼人品的味道。其实,正如那句话所说的“古罗马不是一天建成的”那样,数据中心发生了故障,甚至是致命的故障,很多时候并不是突然就发生的,是平时工作的长期忽视才最终酿成了悲剧。如何做运维才能体现出工作的价值,如何做运维才能降低数据中心出现故障的风险,在这样的需求背景下,智能化运维应运而生。
数据中心运维工作主要包括配置管理和监控,运维人员每天都要进行大量的模块维护操作。运维的操作设计程序更新、配置修改、数据传输以及各种自定义的命令执行。在运维过程中,这些大多是通过手工操作或编写脚本的方式,将模块更新到生产环境中,手工操作不可避免的会带来误操作,效率低下,甚至出现过模块上线操作排队的现象。另一方面对数据中心运行的监控,数据中心里运行着成千上万台的各种设备,经常会出现这样那样的问题,要等到故障反映到业务层面,那实际上已经造成了损失,所以在严重故障发生之前,如果能够发现一些设备运行的异常表现,及时消除就可以减少故障对数据中心的影响,对数据中心进行监控就是将危险消灭在摇篮之中。然而数据中心里的设备、应用程序、组网包含很多小系统,非常复杂,如果靠人去检查,不仅效率低还容易漏掉,而通过智能化运维就可以通过机器去检查所有运行的设备,并且对这些运行的设备进行监控,发现隐患及时告警,当运维收到这些告警时,再采取行动。智能化运维不仅将运维人员从繁琐的工作中解放出来,而且还大大提升了运维工作的效率,是未来数据中心运维发展的主要方向。所谓的智能化运维,在这里给下个定义,就是用机器来代替运维人员,在最少人工干预下,结合运用脚本与第三方工具,保证业务7*24小时高效稳定运行,这也是所有数据中心运维工作的终极目标。
随着数据中心规模越来越大,通过人工的方式做数据中心运行几乎不可能,这使得智能化运维得到了很快发展,也出现了很多智能化运维的软件。比如:监控系统用nagios,流量监控用cacit,集群监控用ganglia,ping监控用ipmonitor或xping,配置管理用puppet等等,这些软件都是开源的,可以根据自己数据中心的业务特点进行修改,形成自己的运维工具。一个智能化的运维工具要想覆盖到所有的设备,所有可能出现的风险,是一件非常困难的事情,因为数据中心涉及的设备和技术实在太多了,并且这些技术还在不断地更新着。数据中心对运维的要求是:事前预警:在故障出现之前,管理人员应该能在任何时间,任何地点接收到告警信息,并及时处理问题,把故障隐患扼杀在摇篮中;事中恢复:天有不测风云,即使是再完美的方案也可能有预料之外的故障,为保证在最短时间内恢复业务,关键数据不因故障丢失,我们需要有完整备份方案来应对自如;事后存档,以便吸取教训,避免故障二次发生。要实现这样的运维要求,可不是一件容易的事情。这需要一个经验丰富且高效的运维服务团队来完成。随着我们的业务系统不断增加,业务量的不断上升,成熟的运维服务基本会借助第三方工具,高效的进行软件的部署与运维。
智能化运维要做到事前预警,事中恢复,事后存档,实际上是要有大量的工作要完成。首先,要对重要的设备实施主动式监控,如路由器、交换机、防火墙等。当这些设备在运行过程中出现告警时,要及时通知到运维人员,对于一些简单的告警智能化工具可以自行处理并修复,直接将处理结果反馈给运维人员即可。其次,新业务部署或配置变更检测也要做到自动化。新业务部署时涉及很多设备和应用程序的调整,这个涉及大量的人工操作要有智能化工具来代替,还有各种设备的配置参数若发生变化,也将触发变更流程转给相关运维人员进行确认,通过自动检测协助运维人员发现和维护配置。第三,维护事件提醒自动化,通过对设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关运维责任人,以便采取进一步行动。第四,系统健康检测自动化。定期自动地对设备硬件和应用系统进行健康巡检,配合运维服务团队实施对系统的健康检查和监控,及时发现系统级的运行风险。最后,维护报告生成自动化,定期自动地对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供运维服务的可用性、性能、系统资源利用状况分析报告,以便数据中心可以根据运行情况,进行下一个阶段的投资。实际上,已经有不少的公司看到了数据中心运维的市场机会,推出了一些智能化工具,不过由于每个数据中心都有自身的特点,不少工具并不适用,需要大量的修改,真正能够给数据中心运维带来革命性改革的工具还没有看到,因为智能化运维还有很长的路要走。
在可预见的未来,运维的角色将变得越来越重要,数据中心的运维工作也将越来越繁重。智能化运维不仅能满足我们对数据中心运维的要求,解放生产力,还能使我们的运维管理更加规范化,标准化,从而真正意义上的实现智能化运行。