用何种测量指标和测量方式取决于使用它们的用户。例如,制造商和软件研发者与卖方和市场部门有不同的需求和关注领域。IT组织可能需要在宏观或全局上关注数据的成本、能源使用量、服务器的数量或类型、存储器容量或支持的事务数量等。测量指标还需要随时间而变化,包括在开发过程中对生产和质量的保证、销售和市场营销、客户的需求和安装、集成测试和后续的支持。
指标包括性能、可用性、容量和能源消耗以及一般的健康状况和使用状态,还包括建立一个解决方案的可行性。对于各种使用场合,度量指标可以解决何时使用IT资源来处理工作或移动数据以及数据不使用时如何存储数据的问题。从PCFE的观点来看,监测IT资源需要与有效工作结合,存储的数据量的测量要结合指定碳排放量和指定服务与费用等级。
图5.3左侧显示了不同侧重的测量指标,从处于底端的设施到顶端的商业和应用程序。如图5.3右侧所示,各种测量方式和指标可以满足不同类别的资源管理基础设施(IRM旬的监测、通知、记录、报告以及相关和分析工具的需求。
从PCFE的观点来看,对能源消耗、费用、散热量、二氧化碳排放量的测量指标应该被制定得灵活有效。IT资源必须对许多因素加以衡量和考虑,包括活动期或非活动期、环境、应用程序、计算或I/O中心、正在被存储的数据量(样储中心)与正在被处理的数据量和地理位置(它决定能源效率,可用性和排放量
以服务器为中心的环境,可以便用电力能源、冷却服务器与存储器以及其他IT设备进行比较。在一个存储容量和I/O操作占较大比例、却有较少的计算量和服务器资源的环境下,服务器可能会表现出较低的服务器性能和较高的存储器(如磁盘和磁带)的性能。记住,这些反映的都是平均情况,典型的环境和"实际里程将有所不同"都取决于具体情况。
#p#
建立一套测量基准很重要,也是出于多方考虑的。它包括建立正常和异常行为标准、确定使用方式和性能模式的趋势以及预测和规划的目的。例如在知道了典型的I0P(输入/输出速率)和存储设备的吞吐率以及常见的错误率、平均队列深度和响应时间后,问题产生或发生变化时,就可以快速做出比较和决策。
测量基准的建立应立足于资源性能和响应时间、容量和空间利用率、可用性和能源消耗量。测量基准也应由不同的应用程序工作方案而确定,以便了解如某些任务正常状况下需要多久完成。测量基准的IRM功能,包括数据库的维护、备份、病毒检查以及安全扫描,可用于对执行任务时间过长或完成任务过快等情况进行监视,因为以上这两种情况都可能表明出现了问题。另一个例子是相对正常时的过高和过低的CPU利用率,可能表明因一个应用程序或设备错误而导致CPU过度工作或对正进行工作的阻碍。
为达到规划的目的,由资源的使用及其他关键性能指标可以绘制出图5.4。图5.4中显示了可用资源容限、可接受服务的阅值、实际使用情况、可用性、性能和趋势。确定通常低于设备物理极限的阂值。在给定的响应时间、特殊性能要求或可用性水平下,阀值对进行的管理服务是很有用的。
例如,为满足特定性能的响应时间,服务器或存储的性能可能会维持在较低的状态。或者资源利用率可以有针对性地根据经验和历史的准线,令利用率低于一定的百分比,以确保在指定成本下交付可以接受的服务。
#p#
从预测和规划的角度来看,随着商业和应用的增长,用测量基准进行的比较可以用来确定或预测未来的资源使用需求。它的优势在于结合资源使用和性能容量计划,在需要时可以及时、合理地得到正确的数量和资源的类型。与跨服务器、存储、网络和设施的容量计划结合后,无论何时何地,当需要用资源来支持服务器、存储和网络的增长时,即可保持不同的群体之间的通信。
表5.1列出了有关电能的说明和意见,包括如何转换或解析己知的指标,以获得一个未知的值。例如,如果你知道电力设备使用的瓦特量,除以已知的电压,就可以确定安培量。同样,如果你不知道设备使用的瓦特量,但你知道热量,只要用热量乘以0.293即可,如1000BTUXO.293=293W。例如,每瓦的I0PS指标的计算万法是用使用能源瓦数除以I0PS量。类似地,每瓦兆赫或每瓦带宽是能源使用的兆赫或带宽量除以瓦特数。
有些指标是测量所得,其他的是由已得出的测量指标或不同指标的组合推导出来的。例如,存储系统可能会在读写的基础上报告读写数据量和1/0操作的数量。派生度量是用带宽除以1/0操作数得到的平均1/0大小创建的。类似的,如果UO操作数量和平均1/0大小已知,相乘即可得到带宽大小。不同的解决方案会报舌各种指标在不同层次上的细节详情。同样,第三方测量和报告工具会根据数据源和收集能力在报告的细节上作相应的变化。
字节数的计算是用包括二进制和十进制等在内的不同的方法(如表5.2所示儿网络通常用bit/s计算,而存储和相关的I/0操作以每秒的字节数来计算。这通常被记做"bit"(位)和"B"(字节)。表5.2中还有多种包括国际单位制的缩写。
直观上,能源应该用每秒产生的焦耳量来计算,用以与每秒的活动对照。但结合能源的利用情况,电能的测量和报吉普遍上是在1kNh仍的基础上。例如,如果设备消耗稳定在1小时1000W,它将消耗1kNh或3600000J的能量。
#p#
指标可以瞬间暴涨达到高峰,也可能是持续的一段时间,***值、最小值、平均值和标准偏差加上总数累积。这些指标可以用不同的时间间隔记录和报古,例如按小时、日、周、月或年。
IT技术制造商在指定的方案下提供有关的电能消耗和(或)散热情况的信息(BTU/h)。一些厂商提供更多的信息,包括最坏情况和***情况的耗能资料,而其他厂商只提供了基本的***交换机型号的信息。由供应商公布的数据应在设备上可见,如千瓦、千伏、安培、VAC或B]U等。在给定数据都可用的情况下,缺少的信息才能确定。例如,如果已知一个供应商供应的BTU/h,瓦数可以用BTU爪乘以0.293得到。这样,一台产热10OOBTU/h的设备使用293W。
那些与回收、排放、空气流通和温度相关的指标也可以由计算而得。其他指标与服务器CPU、内存、I/0、网络利用率、能源利用率以及当地或内部存储性能有关。复合指标是来自于多个数据或计算。例如,当IOPS数和瓦特这种基础指标已知时,可确定每瓦的IOPS,它可以被用来作为消耗单位能源能所做工作负载的指标。
应用程序指标包括事务量、电子邮件、文件、照片、视频或其他处理过的文件。数据保护数量指标,包括在特定时间内帧传输的数据量、成功或失败的备份或数据保护的任务、不同的任务和工作所用的时间以及其他错误和活动的信息。配置管理的信息包括不同类型的服务器、存储、网络组件、软件和固件的数量以及它们的配置方式。
这些指标与其他的指标一起可以指示使用比率或计算占总数的百分比,如衡量服务器CPU使用率(0~100%)。百分比利用率给出了资源活动水平的相对情况,它本身并不能表示服务是如何被交付或受PCFE的影响的。例如一个服务器以50的利用率运行,可能会比85的利用率消耗更少的能量,然而,在85利用率下,应用程序的响应时间和性能可能以非线性的方式下降。服务器、存储和网络的性能通常会因为工作负载的增加而下降,由此可见响应时间和延迟、IOPS或带宽以及空间利用率的重要性。
【编辑推荐】