摘要 结合两例具有代表性的UPS系统故障,通过对故障过程、故障原因的详细分析,总结出需要吸取的经验教训。在此基础上,提出设计和维护UPS供电系统的一些建议。
UPS供电系统在移动通信网络的现有动力系统中占据主要地位。UPS供电的终端用电设备都是重要的通信设备,诸如BOSS系统、经分系统、数据服务器等。随着软交换、IP技术的发展,UPS的应用范围还将进一步扩大。因此,UPS供电系统的安全性、稳定性对于建立高品质的电信级通信网络有着至关重要的作用。
1、两例UPS系统故障介绍
1.1 UPS系统宕机故障
(1)UPS系统故障现象
维护人员进行例行柴油发电机(发电机容量为1650kVA)带载试机工作。在市电中断切换至柴油发电机供电过程中,有一套400kVA UPS系统发生输出中断故障。维护人员赶到后,将该套系统重新开机恢复供电。经检查,UPS没有发现板件故障,而且此期间该机房其他动力设备运行正常。
(2)UPS系统故障过程分析
查看并联UPS的事件记录,发现其中1号机的机内时钟比2号机快了约十几秒。
(3)UPS系统故障原因分析
市电与柴油发电机的切换开关采用普通四极ATS是该起故障的主要原因。
四极ATS切换存在零线中断问题,这种中断对于采用DSP控制的UPS等需要零线来钳位的设备有时候是十分严重的。本次故障发生瞬间,各种控制逻辑电源板异常中断,很有可能是零线中断造成的,因为故障后对逻辑电源板检测没有发现问题。
两台UPS主输入和旁路不是来自同一电源,是该起UPS系统故障的另一个因素。
UPS1主输入INPUT来自1#变压器,UPS2主输入INPUT和两台UPS旁路BYPASS来自2#变压器。在做市电油机切换过程中,第一台是在电池供电状态,第二台是在柴油发电机供电(或市电)状态。对于无线并机,二台UPS的旁路电源不相同,一台有市电,一台无市电。由于第二台UPS有市电,会对市电中断的第一台UPS蓄电池进行充电,同时承担100%的负载,所以出现三相电源限流的可能性较大。也有可能在此瞬间,二台UPS严重不同步,环流加剧,引起保护。
柴油发电机运行不稳定也是引发本次故障的一个方面,这点可以从UPS告警记录中多次监测旁路没有用得到验证。
(4)吸取教训
① 低压配电系统在选用ATS时,一定关注零线是否中断。
关于低压配电ATS选用四极还是三极这个问题在我国已经讨论多年了,一直未有定论。就本次故障来说,四极带零切换ATS对UPS系统来说风险非常大,建议还是选择三极ATS。对于现有四极ATS系统可以把原有部分四极空开换成三极或者对N极进行短接处理。但最好还是选用零线先合后分的四极ATS,可以做到市电和油机在转换完成后零线完全分开,而在整个转换过程中这两个零线是相通的,不中断。
②多台UPS并机系统主输入旁路电源最好来自同一个电源。
一般认为并机系统只要旁路来自同一电源,其他输入电源就不是很重要了。但在实际运行中,由于诸多因素的影响,主输入和旁路来自不同电源的UPS并机系统可靠性降低,常引发很难查找原因的故障。
1.2UPS供电系统宕机故障
(1)UPS系统故障现象
市电停电,柴油发电机供电;市电来电,恢复市电供电。因柴油发电机输出电压不稳,UPS系统整流器锁死一直处于电池供电模式。维护人员在赶赴现场处理途中UPS系统发生宕机故障。需要说明的是电池性能良好,事后分析宕机时电池剩余容量在70%以上,理论计算至少还有1小时放电时间。
(2)UPS系统故障过程分析
① 市电恢复开始阶段
APR 22 09:19:24.054(10:11) NOTICE: Bypass is Available 2388B 旁路可用
UPS由于整流器关断,无法自动启动,继续电池放电,UPS正常。
②UPS关闭前(该阶段是关键)
UPS2情况
APR 22 10:01:43.930(10:54)NOTICE: Power Off Switch 325F1紧急关断按钮动作(第一次动作)
APR 22 10:01:44.086 ALARM: Inverter Cont. (K3) Open 24000 逆变器接触器(K3)断开
APR 22 10:01:44.086 STATUS: Inverter Off 25004 逆变器关闭
APR 22 10:01:44.094 ALARM:UPS Tripped 26000 UPS 保护关机
APR 22 10:01:44.110 STATUS: Inverter Contactor (K3) Open 27D00 逆变器接触器(K3)断开
APR 22 10:01:44.393 STATUS:Input Breaker (CB1) Open 28902 输入断路器(CB1)断开
APR 22 10:01:44.436 STATUS:Inverter Shutdown 29000 逆变器关断
APR 22 10:01:44.564 STATUS: Battery Disconnected 20101 电池脱离
APR 22 10:01:47.581 STATUS: Inverter On 2107F 逆变器开启
逆变器关断后,由于直流母线的电解电容还存有电荷,将再启动一次逆变器,对电容放电。
APR 22. 10:01:48.285 NOTICE:Power Off Switch 3360B 紧急关断按钮动作 第二次动作
APR 22 10:02:07.678 STATUS:Inverter Off 22000 逆变器关闭
APR 22 10:02:18.332 NOTICE: Battery Equalization Aborted 19600 电池均充放弃
看记录是紧急关断按钮动作了,后面的记录也和紧急关断按钮动作后的表现相吻合,尤其是CB1也断开了。奇怪的是10:01:48紧急关断按钮又动作了一次。
UPS1情况
APR 22 10:13:59.902 (11:09)NOTICE: Power Off Switch 335E0 紧急关断按钮动作(第一次动作)
APR 22 10:14:00.058 ALARM: Selective Trip 21028 选择性保护关机
APR 22 10:14:00.058 STATUS:Load Transferred to Bypass 22D20 负载转旁路
APR 22 10:14:00.016 NOTICE:Output AC Under Voltage 34908 输出交流电压低
APR 22 10:14:00.058 STATUS:Inverter Off 23000 逆变器关断
APR 22 10:14:00.061 ALARM:UPS Tripped 24000 UPS UPS保护关机
APR 22 10:14:00.077 STATUS:Inverter Contactor (K3) Open 25D00 逆变器接触器(K3)断开
APR 22 10:14:00.251 ALARM:UPS Off 26902 UPS关闭
APR 22 10:14:00.465 STATUS:Battery Disconnected 27902 电池脱离
APR 22 10:14:00.465 STATUS:Input Breaker(CB1)Open 28802 输入断路器(CB1)断开
APR 22 10:14:00.446 STATUS:UPS/Load Off 35FD2 UPS/负载关闭
APR 22 10:14:00.507 STATUS:Inverter Shutdown 29000 逆变器关断
APR 22 10:14:03.665 STATUS:Inverter On 20CA7 逆变器开启
逆变器关断后,由于直流母线的电解电容还存有电荷,将再启动一次逆变器,对电容放电。
APR 22 10:14:23.572 STATUS: Inverter Off 21000 逆变器关闭
APR 22 10:14:33.652 NOTICE: Battery Equalization Aborted 184C0 电池均充放弃
APR 22 10:15:45.720 NOTICE:Power Off Switch 3600F 紧急关断按钮动作(又来了一次动作?)
看记录也是紧急关断按钮动作了,奇怪的是和UPS2一样,10:15:45紧急关断按钮又动作了一次。
图1 EPO的简单原理图
(3)UPS系统故障原因分析
造成UPS供电系统输出中断的直接原因是EPO异常动作,EPO为什么会出现异常动作呢?
EPO(emergency power off)是紧急关机按键(该按键专为火灾、地震等紧急情况下使用而设置),按了EPO后,UPS的输出马上关断,负载随即掉电。UPS上的其他特征是:整流器输入开关CB1跳开在中间位置、S5开关弹出,输出接触器K3、旁路接触器K4、电池接触器K2、输入滤波器接触器K6全部跳开。EPO的简单原理图如图1所示。
图中ST(控制CB1)和S5(控制K3、K2、K6)是电磁铁线圈,线圈的右边接DC24V,左边接EPO按键的D点,正常情况下D点的电压是DC24V,由于线圈两端没有电压差,线圈就没有电流流过,只有当D点电压为0V时(即按下EPO按钮使C、D点短接)线圈两端才有24V电压,线圈中就有电流流过,电磁铁就动作,ST动作的结果是使CB1跳闸在中间位置,S5动作的结果S5-1断开,从而使K3、K2、K6的线圈失电而跳开。
在EPO的接点上并联有两组线,一组线接到UPS左下方的TB2端子的1、2脚,1、2脚是悬空的并留有安全间距,中间还有塑料隔开,不可能有短路的情况;另一组线接到监控板上,在按下EPO的时候,给监控板一个信号,让监控板记下这一动作的信息。
假设监控板的A点为低电位,由于A和D之间有二极管(单向导电性,只能从正到负极导通)隔离,A点的低电位不会把D点电位拉低,D点还是高电位,线圈不会动作。
假设由于监控板的故障使D点变成高电位,这个高电位最大值为DC24V,因为给监控板供电的电源为24V,A点不可能产生高于24V的电压,这样二极管也不会导通,D点还是高电位24V,线圈也不会动作。B点是和电源的低电位接在一起的,不可能有电位的变化。
在EPO没有按下的情况下,要使EPO动作,就只有使D点变成低电位,如果和D点的连接线在UPS的内部破皮裸露,和UPS的外壳碰到一起或者拉弧打火,EPO就动作了。由于机器内部的连接线全都是抗干扰的双绞式高温线,且插头处都有绝缘套管套牢,从线的一端到另一端看不到裸露的金属部分,因此这种可能性极小。现场的两台机器都有两次EPO动作的记录,两台机器在很短的时间间隔都发生2次EPO异常短路的情况是不可能的。
从上述分析可以排除其他因素导致EPO动作,只能是人工误操作触发EPO造成的,大致过程应该是:市电油机电切换→UPS发出声光紧急告警→机房巡检人员赶到现场→认为太吵→按消音键,误按紧急停机按钮→UPS系统掉电。
(4)吸取教训
对UPS紧急停机按钮外加保护处理,防止非专业人员误操作,引发重大故障。
设计和维护UPS供电系统的一些建议
设计高可靠UPS供电系统
(1)设计把关
在UPS设计前期,要求设计部门和工程建设部门关注UPS主输入和旁路电源的接法,同时检查低压配电系统ATS切换方式,从源头上降低故障发生的机率。
(2)建设UPS双母线系统,提高供电系统可靠性
随着通信技术信息化程度越来越高,UPS的性能和供电方式及其网络组成逐渐成为了备受关注的两个问题。目前普遍采用的并机冗余UPS供电方式,已经不能满足通信网络的高可靠性要求。UPS主机故障和供电回路的故障都会对重要通信负载稳定运行带来巨大影响。近年来,业内每年都发生几起并机冗余UPS系统输出中断故障。根据实际应用情况,应根据不同负载终端设备提出UPS双母线系统使用的建议,如表1所示。
维护好UPS系统
(1) EPO的保护
对UPS紧急停机按钮须外加保护处理,防止非专业人员误操作引发重大故障。
(2)重视UPS电池的维护
UPS后备蓄电池出现质量问题而没有被及时发现并得到妥善处理,由此引起的通信事故将造成难以估量的损失,并且类似故障在业内年年发生。现有的维护规程对于UPS后备蓄电池的容量测试要求是参照开关电源后备蓄电池,要求如下:每年应以实际负荷做一次核对性放电试验,放出额定容量的30%~40%;每三年应做一次容量试验,使用六年后宜每年一次。此容量测试要求对于大容量UPS后备蓄电池在实际维护中面临不少困难,如:由于大容量UPS系统的实际负荷相对后备蓄电池往往大于10小时率,而且后备蓄电池在放电试验前的实际剩余容量往往是不清楚的,因此以实际负荷做核对性放电试验并要求放出额定容量的30%~40%的规定,在实际维护中对于一般的维护人员来说是难以掌握的。实际状态是维护人员关闭整流器,放电10分钟左右就结束,并不能达到及时发现落后电池的预定目标。
另外,容量试验一般要求进行离线放电,而高压的UPS后备蓄电池拆线离线是一项危险的工作,离线放电结束后并联恢复不仅危险而且困难,并且大容量UPS系统的实际负荷很大,离线容量试验将使系统长时间处于后备蓄电池状态,在后备蓄电池离线状态下UPS供电系统的安全保障性大大降低,所以维护人员对于大容量UPS后备蓄电池的容量试验需要承担巨大的压力,对此项操作往往望而却步。
由于存在以上的困难,导致大容量UPS后备蓄电池的容量测试工作虽有规程的明确规定,但是很难得到彻底地贯彻落实,甚至有些地方根本就没有做容量测试,更谈不上对大容量UPS后备蓄电池剩余容量状况的了解,埋下了巨大的安全隐患。
因此必须找出一种切实可行的大容量UPS后备蓄电池容量测试方案,以解决其在维护工作中存在的问题。
(3)定期校正UPS并机系统中每台UPS的内部时钟,便于出现故障时分析
UPS时钟运行一段时间需重新校正,否则对故障原因分析造成诸多不便。严格校正方法不是通常按照钟表上的时间分别调整,应参照专用时刻表校正不同UPS上的时钟。
(4)需定期对UPS系统进行深度维护
目前,大多数的UPS系统维护现状只是清洁UPS的表面卫生、定期抄录有关参数等,很少定期校正并机系统参数及做板件检查。每半年对UPS的并机性能进行检查已成为国外UPS维护的一项常规维护要求,但在国内两年甚至更长时间都不会做,只到发生重大故障时才做深度维护。
(5)重视有些品牌整流器封锁问题
有些厂商的UPS具有在市电质量恶劣的情况下保护UPS设备的功能。有两种模式,分别是市电模式和柴油发电机模式(默认设置为市电模式),市电模式要求UPS输入电源有较高的质量(电压和频率变化范围要求较小),才能保持正常工作,柴油发电机模式允许UPS在输入电源质量较差的情况下(比如更宽的电压和频率变化),保持正常工作。在10分钟内如果检测到20次市电质量超出设置限值,即启动整流器关闭锁死功能,由蓄电池通过逆变器向负载供电。
【编辑推荐】