从500个服务器报警说起

服务器
在一台容错服务器内部有超过 500个故障检测点,随时都有可能发出错误报警和通知。这些故障中,有处理器、芯片组、内存寻址、字节和电源错误,也有内部总线协议、CRC、ECC、系统时钟、系统服务和散热系统错误等,对于标准工业服务器而言,任何错误都可能导致系统瘫痪,更为可怕的是这些错误是随机的,很多属于临时性错误。如果把系统重新启动,有些故障就会消失。与故障相比,有些错误不容易被察觉,导致错误的计算结果,其危害更大。
   在一台容错服务器内部有超过 500个故障检测点,随时都有可能发出错误报警和通知。这些故障中,有处理器、芯片组、内存寻址、字节和电源错误,也有内部总线协议、CRC、ECC、系统时钟、系统服务和散热系统错误等,对于标准工业服务器而言,任何错误都可能导致系统瘫痪,更为可怕的是这些错误是随机的,很多属于临时性错误。如果把系统重新启动,有些故障就会消失。与故障相比,有些错误不容易被察觉,导致错误的计算结果,其危害更大。
 
工业标准服务器所以有如此的问题主要与设计思想有关,运行时间不是其主要设计目标,它只具有有限冗余特征,如电源,需要通过集群来提高可靠性。与之相比,小型机具有更高的可靠性设计,用于保障系统的可靠运行。小型机在故障点检测上有很多的保障机制。通常小型机的价格比较高。随着处理器技术的发展,特别是Intel Xeon 7500系列处理器的推出,IA处理器在可靠性性能设计上与小型机所采用的RISC处理器大幅度接近,但在系统上,标准工业服务器还是有些差距。
 
工业标准服务器的优势在于价格,小型机的竞争力在于高可靠性,有没有办法鱼和熊掌兼得呢?就只有在系统结构上想办法,双机、集群和容错都是不错的方法。
 
双机和集群是通过软件的方法,通过故障机切换来提升可靠性。与之相比,容错是采用硬件的方法,以及特有故障处理和保障机制提高系统的可靠性。容错较之单机具有更高的可靠性,其中,容错还具有纠正临时性错误的能力,可以确保计算的正确性。
 
小型机也通过双机和容错来进一步提升可靠性,但成本代价更高。随着IA处理器可靠性性能的改善,采用容错服务器提高系统可靠性成为了很多明智用户的选择。与双机相比,容错服务器硬件成本高于双机方案,但考虑软件因素,容错服务器具有相当竞争力。在这种情况下,以Stratus的ftServer为代表,容错服务器的门槛已经大大降低,成为关键业务应用的理想选择。
 
责任编辑:常疆 来源: 51CTO.com
相关推荐

2018-11-30 11:19:02

DNS根服务器网络

2011-09-05 14:00:12

容错服务器stratus

2009-08-20 10:19:27

故障服务器自动报警

2019-04-24 15:06:37

Http服务器协议

2018-12-11 10:39:14

Python服务器微信

2017-04-24 16:10:19

戴尔

2014-06-04 11:03:56

2010-02-22 10:33:19

绿色IT服务器

2011-03-24 10:59:10

Nagios监控mysql

2010-09-16 10:46:47

2010-04-13 22:00:33

无线路由器安全设置

2010-05-07 18:03:21

Unix服务器

2010-08-25 17:05:41

DHCP服务器

2022-11-28 10:28:59

服务器云计算

2020-03-09 08:24:06

TengineWeb代理服务器

2012-03-19 21:06:52

Android

2016-09-30 13:48:25

UbuntuPython报警系统

2023-05-10 10:35:14

服务器代码

2013-10-31 12:31:49

Linux服务器Windows服务器

2011-08-09 14:27:49

服务器DCADDS
点赞
收藏

51CTO技术栈公众号