数据中心UPS系统故障启示录

服务器 数据中心
本文通过一个供电系统故障的例子说明机器质量、价格与可靠性的关系,由此对一些用户的糊涂概念进行了剖析,并指出走出误区的途径。

本文通过一个供电系统故障的例子说明机器质量、价格与可靠性的关系,由此对一些用户的糊涂概念进行了剖析,并指出走出误区的途径。

一、概念的误区

人们总是在有些事情上明白,在另一些事情上又犯糊涂。比如穿衣服,谁都知道毛料衣服比化纤质量好,有机食品比一般食品好,真丝领带比尼龙领带好…但在另一些事情上就糊涂起来,现举一个例子。

有的认为工频机UPS就是可靠,而且不管什么牌子都一样,既然一样那就是越便宜越好。这在电源的购买问题上表现得***,结果买了便宜货后起火的、冒烟的不在少数。这里边就有个质量问题,比如同样是工频机结构200kVA的UPS,有的重量是1600kg,而有的还不到1000kg,相差的这近600kg是由内容的:为了提高可靠性,加了很多冗余环节,所以在应用中前乎不出故障,而后者就没有这些冗余环节;又比如模块化UPS,有的平均重量在2kg/kVA以上,而有的就还不到1kg/kVA,同样是10kVA的容量,但带载的能力就不一样了。在竞争激烈的今天谁不想用降低成本来提高竞争能力!但要有个度,若离得太远就令人深思了。

二、一起故障的启示

某数据中心由于容量较大采用了4台大容量工频机UPS构成3+1供电系统,如图1所示。

 

图1 4+1供电系统

一般来说这样的供电系统如果设备选好的话可靠性会非常高。即使价格便宜一些的设备,以来说故障率也还可以,但把握性不如前者高,这就要看运气了。但问题还是出现了,而且这次故障还是很少见的。

1.故障状况

在3+1冗余并联系统中UPS2逆变器功率管爆炸,并由此而导致输出开关断路器1,2,3跳闸;旁路1,旁路2和旁路3启动,如图2所示。这样一来就导致负载全面断电。

 

图2 UPS2逆变器故障导致几路开关动作,负载断电

2.故障状态分析

为什么UPS2的逆变器爆炸会引起整个机房断电呢?一般来说,凡是功率管爆炸都是由过高的温度引起,过高的温度来自过大的功率损耗,过大的功率损耗来自过大的电流。其典型的过流莫过于短路,逆变器功率管爆炸一定是发生了短路。如图3(a)所示,假如由于VT2的质量问题而击穿,即使是由于耐压不够而导致的电压击穿,对功率管而言由于其结构的原因也会造成PN结首先烧熔短路,这就形成了电流的直接通路,如图中短粗黑线所示,这样一来变压器B2初级的上端就直接连到了直流电源的正极,原来当VT2和VT3截止时,整个直流电压由这两支管子分担,各分担二分之一。但现在由于VT2的穿通,整个直流电压就全部加到了VT3上,此高压一举将该管击穿。这样一来,输出变压器B2的初级就将直流电压短接,形成短路负载。或者即使VT3当时不能击穿,在VT4导通时也会击穿,即使一次不会击穿,连续几次也给击穿了,总之变压器初级的短路就肯定形成了。

UPS有一个特点,在逆变器故障时也会打开旁路,此时从旁路来的市电再不给负载供电,而直接流向短路变压器绕组。另一方面,UPS1和UPS3(甚至UPS4)的逆变器由于发现了比负载更容易通过电流的短路环节,其电流也流向UPS2的短路变压器绕组,从而形成强大过流,因此在控制电路的控制下关闭逆变器而打开相应的旁路,使旁路电流经相应的输出断路器流向UPS2的短路变压器绕组,如此强大的过流使输出断路器跳闸,以保护设备,否则就会起火,这是电路设计的保护措施。这就是为什么UPS2的逆变器爆炸会导致输出开关断路器1,2,3跳闸;旁路1,旁路2和旁路3启动的原因。那为什么断路器4和旁路4正常呢?照理论上说断路器4和旁路4也应该动作,但在这里其他3路旁路电流已将短路绕组上的电压抬的足够高,而且在UPS4还没来得及动作前,短路UPS2的断路器已跳闸,保护了整个冗余系统,否则其它几台UPS的旁路都得烧毁。实际上旁路4也应该已经打开了,原因是并联UPS系统必须同时转旁路,这是并联系统的特点,如果这些UPS不是这样,那就在产品设计上有问题了。

 

图3  正常UPS和故障UPS2之间的电流关系

那为什么以前几乎没有发现此故障呢?这就牵涉到器件的质量问题。如果是很好的、价格不菲的机器,其功率管选择的等级会高一些,即使有一个管子比如VT2击穿,直流电压全部加到了VT3上,但由于管子的耐压等级高,就不会连续击穿,最多退出并联系统。决不会发生连续故障事件。尤其对一个很重要的系统来说,往往在购买价格上斤斤计较,省了芝麻丢了西瓜。一般说产品贵有贵的道理,便宜有便宜的原因,不是都一样,也不能凭运气做事情。

三、认为只要有冗余,即使设备质量差一些也没关系

这又是一个概念上的误区。不错,冗余是提高了供电系统的可靠性,并有如图4的可靠性曲线。从图中可以看出,冗余系统的可靠性是不随时间而变的,于是就有的人得出这样一个结论:机器好坏无所谓,只要冗余就能提高可靠性。实际上并不是这样,现举一个例子。

例:如果用两台平均无故障时间为50h量级的UPS并联,设一台平均无故障时间为50h,另一台平均无故障时间为51h,二者的最小公倍数是2550h,即这冗余的两台UPS每隔2550h就同时出现故障,两台UPS同时故障了就必须停机维修,可靠性与可用性就无从说起了;若用质量好的产品,那么如果一台平均无故障时间为500h,另一台平均无故障时间为510h,二者的最小公倍数就是255000h,即这冗余的两台UPS每隔255000h才同时出现故障,系统可靠性提高了100倍。所以冗余与质量是统一的,且不可偏废。上面的3+1冗余系统故障已说明了可靠性与机器质量的关系。

四、认为花钱越多,系统越可靠

这又是另一种糊涂概念。问题是这些钱该不该花,花得有价值,可以提高可靠性,花得

 

图4 系统结构的可靠性比较

没价值,适得其反。比如某金融系统,本来用5台机柜构成的供电系统可以实现万分之一的故障率,但却用了20个机柜构成两组双总线系统,多投资数倍,系统故障率反而提高到了万分之十五,理论上故障率是前者的15倍!像这样的配置例子还不止一个,值得深思。

【编辑推荐】

  1. UPS电源效能***化十大必杀技
  2. 机房UPS供电系统设计方案探讨
  3. 我的电源怎么了?UPS系统故障实例分析
责任编辑:桑丘 来源: 比特网
相关推荐

2015-07-07 09:24:41

数据中心支出

2011-11-01 09:35:48

2015-10-29 10:15:55

程序员成长进阶

2012-12-24 09:45:21

2024-09-26 16:53:36

2021-08-02 13:45:53

UPS电源数据中心

2020-02-27 15:11:16

微盟删库数据安全

2018-10-26 10:16:55

数据中心存储系统网络故障

2014-10-24 16:18:23

2009-03-09 09:35:00

2012-08-31 15:42:17

2021-06-08 08:11:47

数据中心UPS供电系统

2009-12-04 14:35:03

2017-08-01 09:51:16

UPS系统数据中心

2015-06-18 09:59:49

2016-12-22 13:47:31

2014-11-20 11:42:22

2012-07-30 10:52:37

飞轮UPS

2017-07-14 08:43:15

UPS系统数据中心

2013-01-15 11:42:50

点赞
收藏

51CTO技术栈公众号