借助系统大集中,银行对业务实施了集中风险管控,但与此同时,也对信息化系统的稳定性提出了更高的要求。从信息系统的角度,业务大集中也导致系统风险的集中,在原来的分布式系统中,即便系统宕机,其影响也局部范围。但大集中之后,一旦系统宕机,全球的业务都会受到影响,波及范围、所造成的影响都是全球性,所造成大损失惊人。以中国工商银行为例,工商银行是目前全球***钱的银行。根据2013年《财富》排行公布的统计数据,2012年工商银行净利润为2385.32亿元,平均每天赢利6.54亿元,也就是说平均每个小时有2725万元利润进账。这也就意味着,工商银行系统宕机一小时将损失2725万元。实际上,如果宕机发生在白天的业务高峰,其损失将更加惊人。除此之外,系统宕机对服务、品牌的影响更是难以用金钱进行衡量。
系统可靠性对银行系统而言不容有丝毫闪失。为了提高可靠性,银行核心系统多采用大型机和小型机系统。但根据“木桶”理论,整个系统可靠性由最短的桶板来决定。对于银行而言,需要采用***可靠性的系统。从可靠性而言,容错系统具有***可靠性,其可靠性接近了6个9,也就是99.9999%。如果采用双机系统,其可靠性只有99.99%。但就数字而言,6个9和4个9相比,仅仅是提高了0.0099%,但对于系统而言,其可靠性却有着本质的差别。
采用双机系统,如果出现硬件故障,系统之间需要进行切换,切换就需要时间。如果系统切换顺利,则中断时间还在可以承受的范围内,一旦系统切换不顺利,则业务恢复所需要的时间将难以掌控。对于双机系统而言,厂家都常会说到无缝切换,也就是切换时间为0,实际上,这只是一种理想的状态,基本只存在于演示环境中。在实际业务环境中,双机系统对于内存、I/O数据并没有相应的保护措施,系统一旦宕机,将借助备用系统对业务进行恢复和重建,而恢复一定会需要时间。
与双机系统相比,容错系统***的优势就是能够在一个时钟周期内,对处理器、内存和I/O系统数据进行同步。容错系统中的处理器、I/O工作在同一个时钟周期内,处理完全同步。当其中的冗余部件出现宕机时,系统失去了容错的效能,进入单机工作状态。虽然处于单机工作状态,但系统不会出现停顿,仍然可以保持业务连续。对故障部件进行更换,则系统恢复容错,系统重新进入高可靠性保障状态。目前,容错系统支持在线热插拔,更换故障部件不会产生任何中断。
对于银行系统而言,特别各种应用服务器大多采用双机系统,这已经成为了系统短板。所谓千里之堤,溃于蚁穴。随着业务快速发展,数据量飞速提升,采用具有更高保障的容错系统已经成为了银行的当务之急。