高可用是个技术活 也是个经验活

服务器
高端服务器承担的应用场景都是核心的数据库、中间件等关键应用场景,计划外停机往往伴随着业务灾难。系统连续运行水平在计算机领域通常称为“可用性”、“RAS”特性(Reliability, Availability and Serviceability)。目前,高端服务器普遍需要提供99.999%的高可用性,也就是每年停机时间不超过5分钟。

 如果问用户对服务器的基本需求是什么,可能每个用户都会说“不停”,没错,尤其是对于可支持8颗处理器以上的高端服务器而言。

高端服务器承担的应用场景都是核心的数据库、中间件等关键应用场景,计划外停机往往伴随着业务灾难。系统连续运行水平在计算机领域通常称为“可用性”、“RAS”特性(Reliability, Availability and Serviceability)。目前,高端服务器普遍需要提供99.999%的高可用性,也就是每年停机时间不超过5分钟。

“不停”的核心是高可用

“不停”不仅要可靠,更要高可用,也就是对各个层面错误的容忍。高可用是服务器设计研发工作者首先考虑的问题,服务器是一个庞杂的系统,可靠性再强的系统都难免出错,一个能够容忍各类错误的服务器才能称得上是高可用系统。

简单理解,高可用就是隔离故障对系统影响的技术,包括故障的自动化监测、备用部分切换和故障记录分析等,其基本思路是,就是周期性的对服务器不同层面进行检测,在故障影响系统运行之前将其发现,然后将故障部分执行的任务迁移到备用或者同级部分上,并对故障部分进行修复、记录和报警。

高可用也是个力气活

高可用一直被认为是服务器系统高级的特性,此前,大多高可用技术都仅应用于大型机和传统的小型机上,一直是“高大上”代名词,而且高可用技术也一直是各个服务器厂商的核心竞争力之一。

从一个笔者的工作体验来讲,高可用技术都是研发难度最大、复杂度最高的技术类别之一。举一个简单的数字,目前品质最高的工业级电子器件平均无故障时间在10000小时左右,浪潮天梭TS860大约有几万个电子器件,如何保障“不停”是个挑战。这仅是最基本的元器件层面的挑战,此外,还有信号、板卡、BIOS、部件等其他各个层面都要详细考虑。

可用性也是个经验活

高可用需要部分资源闲置作为热备份,因而会造成服务器效率的下降,例如较为常用的硬盘RAID 1技术,两块硬盘同时写入,硬盘空间的利用率仅有原来的50%。为了不过多的损失效率,大部分产品会采用一对N共享热备技术(就是多部件共享一个热备件,例如内存热备通常是三个内存槽位共享一个热备槽位)、互享热备等技术。服务器系统的复杂性决定了热备策略、技术措施的复杂性,每个厂商的高可用技术都体现了各自的理解,凝结着各自工程师的实际经验。即使是相同的高可用技术,各个厂商的具体实现方式方法也不太相同。高可用技术需要厂商在核心技术方面的长时间通入,需要厂商在服务器设计研发方面长期的摸索和积累。

天梭TS860的高可用——体系化

天梭 TS860采用了体系化的可用性技术,在芯片级、链路级、模块级、系统级等四个层面共采用了60余项具体的高可用技术,这些技术包括最底层的双工信号传输,一直到部件级别的热替换,使系统的可用性水平超过99.999%。硬盘、网卡、风扇、电源等模块都支持热插拔,用户可以在系统不停机的情况下,更换这些部件。

[[138877]]

浪潮天梭TS860

相比上一代产品,天梭TS860的传感器数量达到了500个左右,可以及时探测系统各类信息,另外,还增加了Live Error Recovery(LER),eMCA,Machine Check Architecture Recovery(MCA-R)等复杂高可用技术,并且对CPU、内存的onling/offline,PCI-E热插拔等方面进行完善和改进,使系统高可用机制更加完善。

 

更好的热容忍,可部署40度高温环境

从实际应用看, 服务器运行最大的挑战是不受外界关注的一个基本问题——散热,内部温度过高会使得部件过热,触发宕机,也会影响部件寿命,为服务器运行埋下长期隐患。

天梭 TS860采用了CPU Thermal Throttling技术,CPU一旦超过一定的门限温度,会自动降频降压,以降低自身温度;与此同时BMC通过调整风扇转速,帮助过热的CPU散热。

 

而且天梭 TS860风道设计上进行了优化,两个独立硬件分区有各自独立的风道,不会相互影响。硬盘和电源的风道也独立出来,整系统风道清晰,流畅,散热性能好,可靠性高。

 

浪潮版的SMART,更好地硬盘管理

SMART即Self-Monitoring,Analysis and Reporting Technology,是硬盘自我检测与分析报告技术。SMART技术提供的数据,包括坏道、内部温度等,必须通过硬盘的接口(SCSI、SATA、SAS等)读取,通过这些数据,可以迅速了解硬盘的健康状况。

大部分厂商的服务器产品都是各个硬盘均与RAID卡连接,然后接入服务器系统。这一方式使得服务器无法直接访问硬盘的接口,也就不能读取每个硬盘的SMART数据,无法判断硬盘的健康状态,尤其是作为服务器带外管理核心的BMC,更是无法获得硬盘的任何信息,这个问题一直困扰各大服务器厂商。

 

天梭 TS860的硬盘背板,采用了智能的硬盘监控芯片,解决了硬盘无法监控的问题。RAID卡具有标准的SGPIO总线,硬盘监控芯片能够通过该总线,获取每一个硬盘的工作状态,并能够将这些状态通过SMBUS发送至BMC,这样硬盘纳入了统一的系统监测和管理,使得天梭TS860的高可用更为体系化,便于制定更好的策略。

高可用技术完善在于细节

高可用技术的成熟往往体现在具体的细节。以最常见的风扇冗余为例,天梭 TS860系统在处理风扇故障过程中,为了减少噪音没有轻易启用冗余风扇,而采用了一套更合理的风扇故障处理技术:当有风扇出现故障时,监控管理系统会立即响应,通过底层硬件实现对系统的局部的降频降压,保证系统不会因为过热而死机,并通过报警的方式提醒用户更换故障风扇。

用户自选的可用性水平

天梭TS860的可用性技术主要以一对多热备为主,但是很多部分也为用户提供了不同的选择,例如电源系统支持双路供电,可提供N+N/N+1等多种冗余方式,用户可以根据业务的关键性采用不同的方案。

近年来,各个行业的用户对于四路以上的高端服务器越发青睐有加,一方面,随着云计算、移动互联、BYOD等新一代信息化应用的发展,用户业务系统的访问压力和数据增长速度都在不断攀升,另一方面,对于一些压力不大或者边缘系统,用户为了简化管理,降低成本,都开始采用虚拟化和云计算技术进行整合。

浪潮是中国最大的八路X86服务器供应商,将会进一步把关键应用主机的高端技术下移到八路至强平台,为客户带去更好的应用价值和体验。

责任编辑:小明 来源: 51CTO.com
相关推荐

2010-11-22 10:07:47

跳槽

2015-07-08 09:31:47

提速降费网速

2024-08-12 08:04:00

2024-04-26 00:28:14

异地多活架构

2015-03-25 19:54:29

2015-07-28 10:35:02

编程程序员加班

2015-07-28 09:17:47

健康编程

2020-11-20 09:23:01

高可用异地淘宝

2018-03-26 09:02:54

MongoDB高可用架构

2023-05-30 07:27:45

高可用架构流量

2018-04-02 09:33:03

多活技术架构运维

2023-07-04 07:12:31

Intel傲腾内存

2019-01-02 22:49:45

数据中心高可用性网络

2021-02-24 10:05:07

架构运维技术

2020-11-19 11:08:12

高可用架构互联网

2021-05-24 09:28:41

软件开发 技术

2022-10-24 08:03:04

MySQL数据库

2012-09-27 09:23:34

Google

2015-04-16 16:56:14

风河NFV/风河

2016-10-17 10:15:45

俞永福高德日活百度
点赞
收藏

51CTO技术栈公众号