一年前,Intel英特尔在服务器领域发布了叫做Nehalem-EP的处理器。它在Penryn的基础上进行微架构的改进,实际上,它架构上的变化是更大的。从原有的架构变成了现在的直联架构。Nehalem架构也成为了其之后处理器系列的基础架构。
Tick-Tock:Merom跟着Penryn,然后Nehalem后面是Westmere,后面是Sandy Bridge,再往后是Ivy Bridge,再之后是Haswell
新的处理器总是会比旧的处理器更强或者更省电,Nehalem的情况比较特别,它的性能提升太大了。我们搜罗了前一年内失眠上存在的多款基于Nehalem系列处理器的服务器,这样我们可以看到,Nehalem在性能上,在市场上具有一个什么样的表现。#p#
相对于上一代45nm Harptertown处理器,Nehalem-EP(Gainestown)在架构方面具有了翻天覆地的变化,原有的需要经过北桥MCH芯片才能进行的内存操作现在在CPU内部就可以直接进行,此外,CPU与CPU之间现在也有了直接的通道:
Nehalem:直联架构
Nehalem-EP Xeon X5570
包括Nehalem-EP在内的Nehalem架构,其内存存取带宽和延迟同时得到了提升,在内存密集型的应用上,效果将会非常明显。
Nehalem微架构
总结起来,Nehalem-EP/Gainestown比Penryn/Harperton具备的主要优势有三点:
IMC:CISC的x86架构对缓存/内存带宽极度渴求,集成内存控制器让处理器避开了访问内存需要通过FSB总线的限制,并将带宽提升到三通道DDR3 1333(8核心Nehalem-EX支持四通道DDR3)每处理器,极大提升了Nehalem处理器的内存带宽,对服务器应用提升巨大。
QPI:新的点对点总线带宽更高,并且让处理器之间可以直接连接,避免了共享的FSB总线在处理器核心过多时的效率急剧下降,更适合扩展到大规模并行系统。同样处理器数量下,QPI点对点形成的ccNUMA拓扑比共享FSB的星型总线具有更高的效率。
虽然SMT有不少处理器采用,AMD的Bulldozer也有所采用(和Intel的不太一样)
HTT:超线程技术在打游戏的时候或许看不出有作用,不过在企业级别应用上效果明显。特别适合吞吐量型的计算。#p#
通常,新一代的平台包含新的处理器和新的芯片组,Nehalem平台也是这样(除了现在的Westmere-EP平台的芯片组仍然和Nehalem-EP一样之外)。由于架构变化太大,新的处理器/芯片组和老的平台互不兼容。
Intel Tylersburg-EP芯片组
不考虑桌面平台,新的Tylersburg-EP芯片组是为5500系列(单路平台则为3400系列),包含了两个型号:5520和5500,也就是Tylersburg-36D和Tylersburg-24D,和之前的5000系列芯片组北桥被称为MCH不同,现在的5500系列北桥被成为IOH(I/O Hub),它不再带有内存控制器,主要功能是IO,Tylersburg-36D和Tylersburg-24D分别提供了36和24的PCIe 2.0 Lanes。除了提供PCIe接口之外,IOH还提供了连接处理器的QPI和连接南桥的ESI,实际上,ESI也就是一个PCIe 1.0 x4接口。
Intel Penryn-EP/Harpertown平台架构,搭建的芯片组为5000系列
Intel Nehalem-EP/Gainestown平台架构,搭建的芯片组为5500系列
Tylersburg还带来了这样的双IOH配置,总平台可以提供78个PCIe Lanes(6 Gen 1,72 Gen 2)
Tylersburg-36D/5520提供了36 PCIe 2.0 Lanes,通常,在桌面上的话,可以配置为两个x16和1个x4这样的组合,连接两个显卡以及连接一块高速网卡或者告诉存储控制卡/阵列卡。对于服务器来说,通常不需要x16的显卡设备,在这种情况下,Tylersburg-36D可以配置为9个PCIe x4接口,提供极强的IO连接能力。Tylersburg-24D则只能提供24个PCIe 2.0 Lanes,其他和Tylersburg-36D一样。
在IO扩展特性上,Tylersburg提供了Crystal Beach DMA Engine,支持8个通道的IOAT(主要用来提升网络性能)。Tylersburg还提供了第二代的VT-d(IO设备虚拟化)能力。
还有一个比较少提到的是,Tylersburg增加了对管理能力的支持,它集成了一个iME(Integrated Manageability Engine,集成管理引擎),提供一个独立的、带外通信的管理单元。实际上它是一个小的ARM处理器,并可以外接DDR2内存。很多Nehalem服务器都带了Intel Intelligent Power Node Manager功能,它可以监控、监管服务器的功耗以及其他数据,这个功能就通过Tylersburg的iME部件实现。#p#
一、性能验证
我们对实验室的服务器测试平台进行了大幅度的升级,先是将已有的Cisco Catalyst 4506千兆交换机升级到3个模块,达到了一共120个千兆网络端口,还新购买了30台DELL PowerEdge T100服务器,配合原有的30台DELL PowerEdge SC430服务器以及30台PC作为网络测试的客户端,可以提供非常充足的测试压力。
网络实验室控制台
网络实验室机房
Cisco Catalyst 4506千兆交换机,120个千兆铜口
部分Dell PowerEdge SC430服务器
-
SPECCPU2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中统一安装了Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU2006必需的编译器,并使用配合Nehalem架构出现的QxSSE4.2编译参数。我们另外安装了Microsoft Visual Studio 2005 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit的Windows Server 2008 Enterprise SP2下完成,对每一个测试的逻辑CPU,需要分配约1.5GB的内存,对于双路四核心八线程的Nehalem-EP而言,需要24GB的总内存容量。
-
SiSoftware Sandra v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
-
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
-
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
-
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
二、主要规格和技术验证
这个部分主要对于送测服务器的物理特性、硬件配置等等进行考察、评估,比如服务器机箱架构、规格尺寸、处理器型号/数量/主频、芯片组、内存型号和容量、磁盘控制器、硬盘型号、磁盘阵列、网卡型号和接口类型、散热设备、供电、扩展槽、IO接口、托架数量等等。此外还对于处理器技术(SMP技术、HT技术、EMT64、多核)、内存技术(双/多通道、内存镜像、内存热备、内存侦错/纠错)、磁盘接口技术(SATA、SAS)、磁盘阵列技术(RAID 0、RAID 1、RAID 10、RAID 5)等等进行了全面的考查和验证。#p#
如上表所示,除了我们的两台基准服务器之外,本次横向评测活动共有8个厂商的10款主流产品,它们都是基于Intel的Nehalem Xeon处理器,其中,宝德PR2012NS定位是存储服务器,而其他的都是通用服务器。
处理器方面,在这些服务器当中,其中有一台是单路配置,其余的均为双路配置(但是有一台在测试的时候使用的是单路处理器配置)。它们分别是联想T260 G2和宝德PR2012NS。
虽然都是Nehalem处理器,它们分成了两个阶层:550x和55x0两种,前者表示5504、5506等处理器,如联想T260 G2、航天联志5241NR、华硕RS520-E6和华硕TS700-E6,后者则表示5520、5540、5570等处理器,10个产品中其余的6个产品都使用了这种配置。550x和55x0有什么不同呢?前者不具备超线程技术和Turbo Boost技术,并且,频率等方面也受到了限制,不过,其价格显然要比55x0处理器要更低一些,如下表所示:
Nehalem-EP/Nehalem-WS Xeon规格对照表
芯片组方面,都是5500系列,但是联想T260 G2、航天联志5241NR、宝德PR2012NS这三个产品使用的是5500(Tylersburg-24D)。其它的都是5520(Tylersburg-36D)。这大概也代表了市场情况:大部分都使用了满配置的芯片组,但是精简的5500也不为少见。
浪潮NF5280:18个DIMM,36GB内存;如虚拟化、大型数据库等应用需要大量的内存,NF5280能很好地适合这些应用
内存方面,每个Nehalem-EP处理器提供了三个内存通道,通常每个内存通道会提供两个DIMM,10款产品中例外的是联想T260 G2、宝德PR2012NS以及浪潮NF5280,前面两个产品的情况是只提供了两个内存通道,它们的定位偏向于存储服务器或者入门级服务器;浪潮NF5280的情况是,它提供了18个DIMM,每通道提供三个DIMM,并插满了内存,一共36GB。18个DIMM让NF5280的最大内存支持容量比其他机器高出50%,达到了144GB。不过,Nehalem-EP有一个特性,就是只有在每个通道只插一个DIMM的时候可以达到DDR3-1333的速率,在两个DIMM的情况下只能达到DDR3-1066,而在插满三个DIMM下就只能达到DDR3-800了。因此,浪潮NF5280的36GB运行在DDR3-800下(NF5280的处理器X5570支持DDR3-1333),这会略微影响到性能。
10台服务器当中,8台使用了SAS硬盘,2台使用了SATA硬盘:面向入门级应用的联想T260 G2和定位为存储服务器的宝德PR2012NS,后者采用了8个希捷的Barracuda ES.2组成一个RAID 5阵列,使用的阵列卡是Promise FastTrak EX8650。HP的DL380 G6还配置了一个SAS 6Gb/s的阵列卡,非常少见。通常,SAS 6Gb/s的阵列卡IO能力比通常的SAS 3Gb/s阵列卡明显高出一筹。
网络子系统上,10款服务器当中,有3款使用了Broadcom的BCM5709C,其余的均基于Intel芯片。DELL的R610和R710和HP的DL380 G6使用了Broadcom的解决方案,DELL服务器集成网卡基本上都是Broadcom。在7个基于Intel网络芯片的平台中,有5个使用了82574L芯片,有两个使用了82576EB芯片。82576EB非常强大,支持8个RSS队列和8个虚拟机设备队列,82574L要弱不少,只支持两个RSS队列,胜在成本低廉。BCM5709C支持8个RSS队列。#p#
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1。SiSoftware Sandra的测试倾向于“理论性”的性能测试。
很显然,单路的T260 G2处理器性能排最末,领先的是三台高配置机器:浪潮NF5280(X5570)、Intel Nehalem-EP样机(X5570)、HP DL380 G6(X5540)。#p#
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
和我们测试了Iometer但是没有给出结果一样,测试CineBench的目的在于多方面评估系统的性能,分析其他主要测试项目是否有偏差。
基本上和处理器的能力排序一致。#p#
从2007年开始,我们已经逐渐地将SEPC CPU2000测试过渡到SPEC CPU 2006,在本次横评中我们利用这款软件测试了所有参测服务器。SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中统一安装了Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU2006必需的编译器,通过QxSSE4.2编译参数进行编译(对于使用E5430的基准平台1,使用QxSSE4.1编译参数)。我们另外安装了Microsoft Visual Studio 2005 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
宝德PR2012NS的定位是网络存储服务器,因此没有进行SPEC CPU 2006测试。
就结果上看,由于配置了18个DIMM、36GB总容量而导致内存运行在DDR3-800的浪潮NF5280并没有受到内存速率的拖累,反而由于内存量的变大,成绩比起同样CPU配置但是内存容量只有24GB的Nehalem-EP基准平台要高不少,整数8.5%浮点3%。此外,在这个测试当中,单路/无超线程的配置得分和双路/超线程的性能明显处在不同层次。#p#
我们利用NetBench 7.03和Ent_dm.tst测试脚本模拟企业级文件服务器应用,通过60个客户端读写被测服务器的共享目录来考查被测服务器做为文件服务器时的表现。
影响这项测试的因素比较多,磁盘子系统性能(IO处理能力和吞吐量)、网络连通能力等等,在这项测试中,HP的DL380 G6提供了最强劲的性能,并遥遥领先。它的磁盘配置并不是最强劲:三个万转SAS硬盘,它取得强劲性能表现的原因之一是它的SAS 6Gb/s阵列卡:
HP Smart Array P410阵列卡,提供8个SAS 6Gb/s接口,带有BBU,支持RAID 5、6、50、60等各种乱七八糟的阵列方式,可以搭配256MB或者512MB容量的缓存
此外,HP DL380 G6采用的双BCM5709C网卡也功不可没,它比最常见的Intel 82574L要强不少,并且BCM5709C是双口芯片,HP DL380 G6一共提供了四个千兆网口。使用单7200RPM SATA硬盘的T260 G2得分在最后面。
PowerLeader PR2012NS存储服务器,可以提供很大的存储容量;测试样机配置了8个SATA硬盘和一个阵列卡。#p#
我们在被测服务器上安装了Microsoft SQL 2005,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟了最多1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。
数据库测试同时考验了处理器、缓存-内存、磁盘以及网络。大致上,所有的机器被分为两个阵营:带超线程的55x0系列与不带超线程的550x系列,采用单路5504的幸好更是排于最末。最强的是Intel样机,用处理器但是内存性能低点的NF5280相对性能也低一些。基于上一代至强的基准平台性能混在550x系列当中。#p#
我们综合了SPEC CPU2006、文件服务器性能测试和微软SQL2005性能测试得到了服务器的综合性能表现。
综合性能得分以SPEC CPU 2006性能测试、文件服务器性能测试和微软SQL2005性能测试的得分为基础,分别占据40%、20%、40%的分值,并以我们配置了Xeon E5430处理器的平台:DELL PowerEdge 2900 III为基准,基准得分定为100。PowerLeader PR2012NS因为没有进行SPEC CPU 2006测试而分数显得有些低。按照估计,其总分应该略高于100分。
浪潮NF5280采用的是Xeon X5570处理器(Nehalem-EP Gainestown中的最高型号,主频2.93GHz;比其频率更高的W5580/W5590属于Nehalem-WS 2S系列),并配置了18个DIMM、36GB的内存,高内存配置让其SPEC CPU得分比同处理器型号的Nehalem-EP样机高出了6%。NF5280磁盘、网络方配置方面也要更强,它的Intel 82576EB双口千兆网卡的功能和性能都很强。
DELL PowerEdge R610服务器
DELL PowerEdge R710服务器
除了一个是1U,一个是2U之外,这两台服务器的性能表现都很相似,R710的3.5"硬盘的传输速率让其文件服务器性能略强,但是R710的2.5"硬盘的IO能力让其在数据库服务器表现略高,总体来说不分上下。这两台服务器的双BCM5709C双口千兆网卡功不可没。值得一提的一点是,DELL PE R710也是一台可以提供18个DIMM的服务器,在内存支持上具有明显的优势,这一点和浪潮NF5280一样。
HP DL380 G6服务器
HP DL380 G6和DELL的R610/R710难分上下,它的处理器配置略高,而SAS 6Gb/s阵列卡让其磁盘性能表现非常好。DL380 G6也采用了双BCM5709C双口千兆网卡。
曙光I620r-G服务器
曙光I620r-G的性能和HP、DELL在同一个水平线上,可以得到一个规律,性能排在前方的服务器都采用了双路带超线程的55x0系列处理器、SAS阵列卡/控制卡+SAS硬盘、Broadcom BCM5709C/Intel 82576EB双口千兆网卡,而其他采用不带超线程的550x处理器、SATA硬盘、Intel 82574L网卡的型号得分都在100左右。#p#
我们通过测试得到了服务器的功耗数据:
综合性能最高的浪潮NF5280的功耗也是最高,峰值达到了444.6W,这是因为它插满了共18条2GB的内存,并且配置了两个冗余电源。横评中不少服务器都支持冗余电源配置以提升系统的可用性,然而只有NF5280送测样机配置了两个单元,这会略微增加其耗电。再往下是Dawning I620r-G,它插满了12条2GB的内存,并且采用了比较一般的电源。余下的其他服务器配置较为接近,功耗水平也比较接近,当然,联想T260 G2耗电是最低的。我们的老基准服务器(Xeon E5430)功耗也比较高。
【编辑推荐】