从一个简单的问题开始谈起——多路服务器的性能为什么会更强?
是因为处理器数量多吗?是,不过更重要的原因是,I/O速度快,能够让多处理器的性能发挥出来。在当前的技术条件下,I/O是系统性能提高的瓶颈,如果I/O问题没有解决好,处理器数量的增加不一定会带来性能的提升,极端情况下,新增的资源有可能被I/O全部消耗掉。
I/O是制约多路服务器性能的关键因素
众所周知,不论安腾、至强还是power,处理器主频都超过了1Ghz,也就是说时钟周期都远远小于1ns,处理器在一个时钟周期内可以处理多条指令,平均到每条指令的处理时间就更短了。
I/O访问速度就慢得多,CPU访问自身cache一定是最快的,延迟在10ns级别,相当于几十个时钟周期;访问本地内存延迟可以控制在100ns以内,跨CPU节点访问内存,其延迟就到了us级别;如果是要访问PCI-E上的设备,则要经过VFS、Diver等多个层次,就算通过DMA访问,其延迟也至少在10us以上。
可以看出,服务器的I/O耗时远大于计算,I/O的延迟势必将造成处理核心的大量等待周期,所以,如何建立一个I/O模型,尽量降低I/O对系统性能的开销,是多路服务器设计必须要考虑的关键问题之一。
节点外I/O是灾难
谈完了服务器内部通信,有必要再谈一下服务器外部通信,也就是节点外通信。
节点内部通信虽然会制约系统性能的提升,但仍远远优于节点外通信,节点外通讯的延迟普遍在ms级别,最高甚至达到秒级,如果处置不当会严重降低系统性能,影响实际业务,这就是大规模在线交易处理系统必须采用多路服务器的主要原因。在线交易处理必须基于同一数据源,各处理器之间必须频繁通信才能保证数据一致性,如果采用集群技术,服务器的各个处理器核心将用较长的时间等待数据,这种延迟将随着节点数量的增加飞升,系统很快就会出现扩展瓶颈。
分布式 技术难以克服I/O瓶颈
但是,正在被各大互联网运营商广泛采用的分布式技术似乎是个反例,很多传统行业用户也以为分布式技术能够更好地承载他们的业务。
其实这是一种误解,两类系统在设计原则上存在着根本的不同。
以采用了全分布式架构的阿里巴巴为例,后台确实经过了双十一那种近乎灾难式的压力考验,但是很多天猫购物的人也会遇到虚假下单成功、支付完成后订单仍显示未支付等问题,这些问题都是各个系统之间数据不一致导致的,如果阿里巴巴能够在关键系统中采用多路服务器将节点间通讯转化为节点内通讯,降低内部交互压力,系统表现肯定会好得多。
这些问题对于淘宝来讲仅是一个客户体验问题,等双十一结束后,可以通过人工或者其他手段来解决,但是银行、电信等行业用户对于这类问题很难容忍,在数据一致性问题上他们从不探讨,所以他们通常把分布式技术都用在非生产性系统中,生产系统采用的都是清一色的大型服务器和关系数据库,传统交易处理方式仍然不可替代。