在本次的“一剑一绝技,七剑统机房”大型专题的IT运维篇中,我们采访了若干的IT运维系统专家,让我们来听听专家的意见和建议。
请问当今的机房运维管理应该包括哪几部分?
1、可用性管理:
即提供机房所有设备的可用性保障,这是建立数据中心机房的前提;
2、可靠性管理:
即确保机房所传输的数据是稳定可靠的,这是衡量用户满意度的唯一标准;
3、安全性管理:
即保护机房数据传输的信息安全,这是防止重大灾难、数据泄密、黑客攻击等的有效武器;
4、容量管理:
即以一种经济节约、低耗能的方式为机房数据处理和存储提供所需的容量,这也是为建造绿色数据中心机房所需要制订的策略规划;
5、制度流程管理:
即拟订机房规章制度及运维操作流程。机房运维管理“三分靠技术,七分靠管理”,只有将值班制度、巡检制度、日常作业制度、安全保密制度等标准化、流程化,才能真正管理好机房数据中心。
请问当今的机房运维管理的几个要素中,最为核心的是什么?
数据是现代化组织数字化运营的核心,数据中心机房建设只有以“数据服务”为核心,才能更好地为组织的运营服务。“数据服务”是面向客户的,只有客户满意了,服务才会产生收益,具体表现为降低故障率、减小宕机时间、减少灾害威胁、降低IT成本,而良好的机房制度流程管理是实现以上收益的管理手段。
请问如何衡量机房运维系统的优劣?
关于机房运维系统的优劣,主要从以下两点来衡量:
1、面向业务的优劣;
所谓“面向业务”,即不能单独把客户或企业的数据零散的监控管理,要提供企业真实业务的管理。保障企业业务的稳定性是提供客户“数据服务”的最终表现结果,只有业务的有效稳定运转,才是企业的生存之本。所以好的机房运维系统必须具有面向业务的服务管理(BSM);
2、面向服务的优劣;
所谓“面向服务”,即面对客户的所有IT服务需求,必须要有一套完善的标准化、流程化的服务体系来帮助机房数据中心进行高效运维,包括机房运维人员的建设,靠什么技术来实现高效无忧运维,运维流程如何建立、执行等等。所以好的机房运维系统必须有一套如何对机房IT系统的规划、实施和运营进行有效管理的方法论,即ITSM。
综上所述,一套好的机房运维系统必须是面向业务的,面向服务的。
请问现阶段对于运维系统来说,能否涉及到UPS、空调等设备方面的自动化管理?如果可以,是采用什么技术手段实现的?
对于机房的运维系统,必须涉及到对机房的环境监控,其中就包括了UPS、空调、机房温湿度等,这些都是机房的基础设施,是属于机房自动化监控工具的对象之一,一般是通过以下两种方式实现的监测:
1、直接采集UPS、空调、机房温湿度等设备提供的标准或私有接口获取性能数据,一般标准接口有SNMP、telnet/ssh、Q3、corba等,但目前这些环境设备型号比较杂,接口不统一,大都采用自己的私有协议接口,所以无法做到统一的监测管理;
2、通过调用以上设备的环境监控软件的页面、图形或数据库在机房自动化监测系统中展示出来,可通过RMI、webservice、远程调用API、获取数据库结构直接调用等技术手段来实现环境监控软件和机房自动化监测系统的无逢集成。
目前大部分厂商都是采取的第2种模式,可扩展性更强,目前泰信科技公司提供的APEX NetManager,其中的机房管理模块就是采取的第二种方式来集成监测UPS、空调、机房温湿度等性能数据。
请问机房运维管理能否遵循ITIL规范标准,如果可以,机房运维管理应该如何与ITIL标准相结合?
在前面已经提到,一套好的机房运维管理必须是面向业务、面向服务的,这就必然要遵循ITIL规范。按照ITIL V3的方法论,所有的服务解决方法都必须是以业务需要与需求为驱动的。在这种前提下,服务的生命周期是从用户业务中的需求发生变化开始,到下一个新的业务需求发生变化结束的。这也正是机房运维管理所强调的面向业务面向服务的宗旨。
泰信科技公司提供APEX OSSWorks运维管理系统,此系统基于ITIL规范,对于建设机房运维管理系统有丰富的行业经验,我们主要从以下几方面来建设机房运维系统:
1、服务战略
建设机房运维系统,首先需要深入了解客户的需求,并对该需求做预算审核,最终建立起机房运维团队的服务组织结构,客户需求是机房服务生命周期的开始;
2、服务设计
设计服务是为了满足商定的业务成果,包括与客户商定服务水平的评估方法和指标,建立服务目录,为客户设计数据存储容量,节省用户IT成本;为用户设计信息安全管理,保障客户数据传输的安全;最后还要为用户建立知识库管理系统,留下宝贵的运维经验;
3、服务转换
当某一项服务出现错误或某一项操作失败时,就需要服务转换的涉及的功能,包括服务事件变更谁来负责,谁来研判,谁来执行,每个涉及机房的设备或环境一旦发生变化,到底会涉及哪些CI配置项,和哪些人有关,和哪些业务相关。这些都需要我们在服务转换过程中定义好CMDB(配置管理数据库)、变更管理流程、发布和部署管理流程等等。
4、服务运营
服务运营的最终目的就是交付,把之前和客户商定好的服务目录中的级别(包括可用性级别、可靠性级别、安全性级别)一一实现,包括服务台、事件管理、请求管理、故障管理、问题管理、访问管理。通过制定的值班制度、巡检制度、日常作业制度、安全保密制度等流程,保障运维人员有序进行机房运维操作。
5、持续服务改进
最后就是不断优化机房运维流程,不断持续改进运维服务,通过用户对服务质量的评价和改进以及对机房运维流程提出的进一步优化意见对该系统做持续改进。