“动车事故”让双机服务器警醒

服务器
从技术上看,双机冗余所解决的是故障后的业务恢复问题,也就是说,在一定的时间段内,恢复系统运行,来保障业务的连续性。这就意味着,系统会有一定的中断时间。对很多业务而言,这种业务中断是可以的,例如邮件系统、保险下单系统等。但是对于有些业务,这种中断是不能够承受的,例如证券交易、银行交易以及工业控制系统等,业务中断就意味巨大损失,据统计,金融企业每次宕机损失平均为1000万美元。

 甬温线动车事故牵动了全国人民的心。对于事故原因,有很多的说法,有说雷击的,也有说信号控制错误的,也许真正的原因还有待有关部门最终的调查结果。但有一点事实,故障造成了无法挽回的损失,逝去的生命已经无法挽回,教训是非常惨痛的。

 为什么总在一些原则性的问题上跌倒?这不仅指铁道部门,在IT应用中,也经常有这样的事情发生。在需要可靠性保障的关键业务应用场合,为了保障业务连续性,国内用户常常选择双机冗余的方案,而不是选择容错机。但在国外,用户一定会选择容错机。

 对于国内用户为什么不选择容错机,很重要的一个理由就是价格贵,资金预算有限。目前容错机的价格大体分为高中低档,价格为60万、40万和20万不等。这相当于多路服务器的报价,较之双路服务器高出很多。在这种情况下,用户常常选择双机冗余方案来提升可靠性。

 从技术上看,双机冗余所解决的是故障后的业务恢复问题,也就是说,在一定的时间段内,恢复系统运行,来保障业务的连续性。这就意味着,系统会有一定的中断时间。对很多业务而言,这种业务中断是可以的,例如邮件系统、保险下单系统等。但是对于有些业务,这种中断是不能够承受的,例如证券交易、银行交易以及工业控制系统等,业务中断就意味巨大损失,据统计,金融企业每次宕机损失平均为1000万美元。

 也许会有用户认为,双机冗余系统能够做到零中断切换,当系统故障时,自动切换到冗余的服务器。这只是一首好听的歌,实际上根本无法实现。原因很多,有监控问题,也有系统的同步问题。所谓零切换,也就是在演示阶段,实际上很难实现。究其原因,双机冗余的设计目的,并不是系统不中断,而是系统中断后,业务的连续性问题。

 解决系统不中断,保持业务连续可用,就只有采用容错机的方案。在国外,这几乎是用户的一种共识。要想系统不中断,可行的办法就是消除故障的隐患,就硬件层面而言,这种故障可能来自处理器,也可能来自缓存、内存、总线和I/O,那么容错机,通过锁步技术,销售了硬件故障的可能性,从而为系统提供所需要的可靠性。

 也许有用户会说,如今软件系统的故障大大高于硬件,采用容错机的意义不大。的确,软件故障大于硬件故障,对于软件故障,可以做的是打补丁升级,硬件无法解决软件的故障。但是对于用户来说,为什么会选择双机冗余,其目的就是克服硬件故障,从这个意义上说。选择容错机,要远远好于双机冗余方案,除非用户已经想明白了,其业务系统可以承受一定程度的中断,否则,双机冗余的选择就是一个绝对的错误。

 让“甬温线”事故再也不要发生!

 

责任编辑:常疆 来源: 51cto.com
相关推荐

2010-11-11 09:51:38

服务器虚拟化

2010-09-03 09:35:05

凌动服务器

2012-05-29 10:03:37

2010-06-02 09:34:14

2009-01-15 09:54:00

DHCP服务器

2018-01-31 11:20:48

2010-07-28 18:07:57

2017-06-06 09:53:23

2010-05-18 16:32:53

IIS服务器

2017-12-11 08:37:57

服务器市场数据

2013-04-16 10:30:37

英特尔凌动芯片

2010-05-18 17:13:11

IIS服务器

2010-05-20 18:27:10

IIS服务器

2009-08-20 10:19:27

故障服务器自动报警

2010-05-18 10:51:38

IIS服务器

2018-05-08 10:04:39

小程序服务器备案

2010-04-01 18:56:37

2020-11-06 08:13:03

服务器Nodejs客户端

2009-02-17 19:30:43

2011-03-21 10:06:36

英特尔凌动服务器10瓦
点赞
收藏

51CTO技术栈公众号