多一个“9”对数据中心很重要

译文
服务器 数据中心
哪怕系统停机时间只有短短几分钟,都有可能降低生产力、导致你失去潜在的销售额,或者造成更严重的后果,具体要看受到影响的是什么系统。但是你心里可能会问:99.9%的正常运行时间与99.99%的正常运行时间到底有啥区别?

你要认识到正常运行时间的重要性,以及如何在数据中心最大限度地延长正常运行时间。

哪怕系统停机时间只有短短几分钟,都有可能降低生产力、导致你失去潜在的销售额,或者造成更严重的后果,具体要看受到影响的是什么系统。但是你心里可能会问:99.9%的正常运行时间与99.99%的正常运行时间到底有啥区别?为了获得更多的一个9或两个9,不惜投入成本值不值得?Uptime软件公司首席执行官Phil Didaskalou为贵公司描述了一种可能很吓人的情景,这个场景表明了正常运行时间到底有多么重要、为什么多一个9关系那么大。

“你已经比较了其他供应商,看了看自己的预算,一切看起来都基本上都在你的承受能力范围之内,于是与那家供应商签了合约,信心十足地认为,99.9%的正常运行时间对贵公司来说够好了,”Didaskalou说。“两个星期后,贵公司在周三下午1点启动了年度促销活动,向受众发出了40万封电子邮件——你认为在这个时间段开展这项年度促销活动最合适,可以覆盖到你的受众。一个小时后,你这家新的网站托管提供商整整停机了20分钟。从统计学上来说,你知道,电子邮件接收者大多会在促销活动的60分钟内打开和点击浏览你的促销内容。那么,这到底有什么后果呢?你很可能刚刚失去了30%的受众。”

一连串9到底说明了什么?

你只要稍微简单算一下(一年8760小时乘以0.001或0.0001等),就会明白,如果正常运行时间是99.9%、99.99%或99.999%,那么预计全年的总停机时间分别是8.76个小时、52.6分钟和5.26分钟。一般来说,正常运行时间比例中9的个数越多,你遇到长时间停机的可能性就越小。

如果贵公司主要通过网站来卖产品,那么不难看出这些正常运行时间比例对贵公司会带来怎样的影响。设想一下:你每分钟可以卖掉价值100美元的商品。如果是99.9%的正常运行时间,那么你每年损失的销售额很可能超过5万美元;相比之下,如果是99.999%的正常运行时间,那么只会损失526美元。但是这还有其他影响,比如说频繁停机有损贵公司的声誉。

从公司内部的角度来看,停机时间对生产力大有影响。如果员工们无法稳定地访问服务器、网络及其他的必要工具,他们就很难顺利完成工作。最重要的事情是找到这样的正常运行时间解决方案:不仅成本合理,还可以确保贵公司不会在无法接受的时间段遭遇停机。

选购解决方案

在你开始选购正常运行时间解决方案之前,你必须先关注贵公司的要求。你得找到这样的产品:既适用于虚拟环境和云环境,又适用于你的所有物理服务器,而且能够正确地计算出正常运行时间,那样你就能对基础架构进行相应的优化。

Didaskalou表示,你还应该确定一天当中哪些时间段确保正常运行时间最重要,确定应该多么频繁地监控应用程序和服务,确定在非工作时间多长的停机时间是可以接受的。而一旦你搞清楚了这些问题,就可以比较分析所有可能的服务提供商,确保他们的能力与贵公司需要的能力相一致。

Didaskalou说:“我会建议探究得更深入一些。应询问对方使用什么监控工具,对方在什么平台上运行监控软件,针对监控和主机托管基础架构落实了什么硬件备份和故障切换系统。”

Didaskalou建议,公司应该监控和计算自己实际的正常运行时间和停机时间,确保自己实际得到的正常运行时间就是掏钱购买的那种正常运行时间,因为选择99.999%而不是99.99%需要一笔相当庞大的投入。你进行的监控越频繁、越准确,发现一致或不一致的可能性也就越大。

学习与改进

如果公司明白正常运行时间有多重要、哪些是最关键的时间段,以及需要怎样长的正常运行时间才能确保成功,很显然将处于领先位置,但不能满足于此。你一定要搞清楚自己的应用程序、服务及其他业务工具中哪些最容易出现潜在的停机,然后要想方设法来防止停运。你还必须充分了解正常运行时间的每一个方面和你所使用的服务,那样才能提高效率,并确保客户始终随时可用。Didaskalou还给出了需要牢记的另外几个注意事项,那样你就能避免最糟糕的情况。

他劝告:“要知道正常运行时间对贵公司的业务来说意味着什么,要明确关键时间段和非工作时间段。确立可用性方面的目标,并记入文档。要在你的操作人员当中营造恪守职责、关注客户的文化氛围。部署成熟可靠的工具,要有准确监控、提醒和服务级别协议(SLA)报告等机制,从而建立必要的反馈回路。确保你明白自己的SLA意味着什么,还要明白提供商所使用数据的完整性。”

文章要点

•正常运行时间极其重要,有助于维护贵公司的声誉,让你的产品和服务对客户来说随时可用,以及在高峰经营时间保持高效运作。

•多一个9就无异于缩短了停机时间,只要你用来计算贵公司正常运行时间和停机时间的服务很适宜。

•要延长正常运行时间,关键是知道贵公司需要什么,并不断监控你的应用程序和基础架构,以便找到薄弱环节。

链接:更到位的监控间隔意味着衡量起来更精确

一些正常运行时间监控解决方案只能在5分钟或10分钟的间隔里检查服务和应用程序,因而可能会漏过在此期间短暂的停机时间段。这可能导致监控结果不准确,以为正常运行时间比例让人比较满意,实则不然。

要解决这个问题,最好的办法就是你自己定期监控正常运行时间,或者找到能够以尽可能小的时间间隔来进行监控的解决方案。如果你没有不断监控自己的系统,最后有可能掏99.999%正常运行时间的钱,一年下来得到的只有99.99%或更差劲的服务。

责任编辑:张玉 来源: 51CTO
相关推荐

2023-03-07 14:29:34

数据中心PDU

2022-03-12 10:00:49

零信任数据安全

2023-09-15 11:42:15

配电单元数据中心

2017-07-14 08:43:15

UPS系统数据中心

2017-01-16 10:18:55

数据中心频率OSPF

2020-12-30 13:30:38

数据中心计算机超级计算机

2017-01-15 13:42:07

数据中心时间网络

2022-09-26 13:58:44

数据治理数据素养通信

2012-11-21 16:15:00

数据中心总体拥有成本选址

2019-01-08 11:00:22

华为

2015-08-17 10:30:06

2018-03-08 16:53:21

数据中心数据海啸

2014-04-08 10:00:44

数据中心软件定义

2015-10-15 14:13:56

博弈论数据科学家

2015-12-14 10:01:48

数据中心

2022-06-28 10:03:48

数据中心数据中心投资

2020-08-11 15:54:15

数据中心整合数据中心

2017-12-22 23:53:11

数据中心CFOIT

2011-11-24 14:37:33

数据中心服务器数据中心升级

2015-07-10 09:42:33

点赞
收藏

51CTO技术栈公众号