数据中心管理和维护人员在评估性能时,他们需要查看短期数据和长期数据的方法。关键绩效指标(KPI)提供了一种评估组件的方法,以下以存储设备为例。
数据中心工作人员必须定期评估硬件和软件性能,以帮助他们做出有关升级和人员配置的决策。关键绩效指标(KPI)是获取更多视角的有用方法,可帮助业务运营,跟踪数据中心运行状况,并监控单个组件(如存储设备)。
为确保存储设备高效可靠,数据中心管理和维护人员应该跟踪和关注数据中心的这三个主要关键绩效指标(KPI)。
(1)利用率。这显示了可以使用的存储设备容量与存储总容量的比率。低比率意味着存储容量的浪费。当利用率这个关键绩效指标(KPI)较低时,企业负责人通常会限制新的存储投资。高比率表明需要额外的容量,可以帮助业务***证明购买存储硬件的合理性。
(2)可用性。这是可以衡量存储设备正常运行时间与计划或期望的存储正常运行时间的比率。可以衡量主要存储子系统(例如存储服务器或存储阵列)的可用性,或者在软件定义的环境中存储池时存储层的可用性。
极高的比率表示大多数时间都可以使用特定的存储资源。随着比率下降,业务***可以跟踪存储问题的早期警告,这些问题可能影响工作负载可用性、用户满意度和业务收入。
(3)计划不可用性。这是实际停机时间与计划停机时间的比率。KPI为1.0表示在分配的时间范围内已完成对存储资源执行的工作。比率小于1.0表示实际停机时间少于预期。如果比率上升至1.0以上,实际停机时间将超过预期。
比率高于1.0可能表明人员配置问题、设备短缺、采购批准延迟或延长服务时间。业务负***经常使用这个数据中心KPI作为运营有效性的衡量标准,并且如果它一直很高,那么需要做根本原因分析。
IT和业务***在存储方面可能会采用更精细的数据中心KPI,例如平均故障间隔时间(MTBF)和平均修复时间(MTTR)。
MTBF是设备故障或服务问题之间的平均时间。在存储方面,这是存储系统可靠性的平均度量。随着时间的推移,平均值的的任何变化都可以提供对可能出现系统问题的有价值的洞察,这些问题可能需要更深入的调查或设备评估。
平均修复时间(MTTR)是事件发生与解决之间的平均持续时间。在大多数情况下,平均修复时间(MTTR)只是随着时间的推移被跟踪,业务***会查找平均修复时间(MTTR)的变化,以作为平均维修成本、员工专业知识和系统可靠性问题的间接衡量标准。