配4路Nehalem-EX 戴尔M910服务器评测

服务器 服务器产品 服务器运维
测试中,四路Xeon E7540配置提供了比双路Xeon X5680多出20%的纯计算性能,不过在各种应用项目中略为打了个折扣。

在3月底,Intel发布了45nm、8核心的Nehalem架构处理器:Nehalem-EX,面向多路服务器平台,主要目的是提供极强的计算能力、内存扩充能力以及RAS特性。足够多的RAS特性对于Mission Critical领域是十分重要的,因为这个领域上,稳定性非常重要。

对于一个新生事物来说,应用总是偏慢的,企业级产品更是如此。在Nehalem-EX发布之后,过了好一段时间才有厂商可以提供评测样品,这就是DELL。他们提供了一共三个型号的Nehalem-EX机器可以测试。

 Nehalem-EX刀片:DELL PowerEdge M910
我们最早拿到的Nehalem-EX测试样机:DELL PowerEdge M910刀片服务器

偏慢的反应对于笔者来说也是一样,新的机器在测试中可能会出现各种各样的问题,需要花时间去解决。到了现在,我们终于可以一览Nehalem-EX的实际性能了。#p#


在DELL的刀片机柜中,叫做一个“全高”刀片;“半高”的刀片更为常见些


尽管M910的计算能力非常强大,不过它仅配置了两个2.5"的热插拔SAS硬盘


与刀片机架通过两个接头连接;半高的刀片只需要一个接头就可以

 DELL PowerEdge M910外观
搭配的M1000e机架,不带M910服务器,全重186公斤,这时候笔者深刻体会了引力的真实意义……

#p#


大部分面积都被内存-处理器占用了


总共32个DIMM,最高支持256GB内存


每个处理器支持8个DIMM,这8个DIMM通过两个SMB芯片来支持,图上在内存条之间的四个银白散热器,就是对应两个处理器的SMB芯片的散热器 


因为Nehalem-EX暂时还不支持DDR3-1333,因此配置的都是DDR3-1066内存,单条容量4GB,系统总容量为128GB 


用螺丝固定的LGA1567 Nehalem-EX处理器,和通常不同 


DELL惯用的Broadcom网络芯片;BCM5709C是个支持8个RSS队列的双口千兆网卡,M910总共提供了4个千兆网口


DELL的特色,在服务器上集成一些CF插槽,可以随机集成一些备用的工具软件,或者,集成一些嵌入式的虚拟化软件或者操作系统

#p#


Nehalem-EX:Xeon X7540,不是最高端型号,它具有6个核心,主频2.0GHz


8核心Nehalem-EX晶圆图


背面具有大量的元件

 

 Intel Nehalem-EX处理器:Xeon 7540
这个图描述了四路Nehalem-EX的大致结构,大部分的四路Nehalem-EX都是这样的

#p#

在每一代的DELL服务器中总会携带有一些独有的技术,到了Nehalem-EX这一带也是这样,这次,戴尔带来的是一个叫做FlexMem Bridge的技术,顾名思义:弹性内存桥接技术,这个技术用来干什么的呢?

我们先来看看M910的结构,R810是结构相似的机架版本:

 DELL特色技术:FlexMem Bridge
四路7500/6500至强配置

R810和M910都是可以同时应用7500以及6500系列至强的版本,6500系列至强是7500的双路版本,只能达到两路配置,不过具有Nehalem-EP/Westmere-EP所不具有的高级RAS特性以及强劲的内存支持能力。随R810和M910的这种灵活搭配能力而来的问题是:如果使用了双路配置的话,有一半的内存插槽会闲置,实在可惜!

FlexMem Bridge是这样的一个技术:在使用双路处理器的时候,通过这个技术可以让剩下来的处理器可以访问到应该是没有装上去的两个处理器的内存插槽:

 DELL特色技术:FlexMem Bridge
FlexMem Bridge,就是一个桥接的技术

它通过一个模块将一个Nehalem-EX处理器的一个内存控制器引出的两个SMI Link(SMI:Scalable Memory Interface)旁路到另一个Nehalem-EX处理器的内存通道上,从而完成这样的工作。FlexMem Bridge模块还可以旁路一路QPI通道。

 DELL特色技术:FlexMem Bridge
左下角占据了CPU位置的模块就是FlexMem Bridge

在首次听到FlexMem Bridge技术的时候,笔者感觉到它确实很特别,让双路处理器下使用极大量的内存:32个内存插槽,最多512GB的内存容量。不过,有得必有失,经过观察之后,笔者发现这个技术在四路配置下,每个Nehalem-EX处理器仅使用了两个内存控制器的其中一个,另外一个就闲置了,这可能会影响到其性能。就笔者的看法:FlexMem Bridge很适合双路Nehalem-EX平台(M910和R810),但是四路平台最好还是用原生的R910。

#p#

 服务器对比测试平台

测试结果将会与Nehalem-EP、Westmere-EP、Dunnington等多种典型处理器家族做对比。测试时均使用了四路配置……因为直到测试快结束的时候,Lucifer才搞到带有FlexMem Bridge的DELL PowerEdge R810服务器。

#p#

M910服务器:平台截图
由于EIST,闲置时频率只有1064MHz

 M910服务器:平台截图

 M910服务器:平台截图
BIOS版本是1.0.1

 M910服务器:平台截图
除了容量,其它的参数完全认不出来

 M910服务器:平台截图
SPD也是

 M910服务器:平台截图

 M910服务器:平台截图
任务管理器

 M910服务器:平台截图
测试样机预安装的Windows Server 2008 R2 Enterprise

 M910服务器:平台截图
一版的CPU

 M910服务器:平台截图
DELL PERC H700是DELL PERC 6i的继任者

#p#

SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

 

SiSoftware Sandra Pro Business 2010
测试对象
双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
Processor Arithmetic Benchmark
处理器算术性能测试
Aggregate Arithmetic Performance
147.17GOPS 218.69GOPS 249.2GOPS 298.6GOPS
Dhrystone iSSE4.2
172.5GIPS 257GIPS 291.36GIPS 350.47GIPS
Whetstone iSSE3
121.84GFLOPS 180.41GFLOPS 207GFLOPS 246.73GFLOPS
Processor Multi-Media Benchmark
处理器多媒体性能测试
Aggregate Multi-Media Performance
      562.11MPixel/s
Multi-Media Int x16 iSSE4.1
317.13MPixel/s 470.51MPixel/s 534.13MPixel/s 646.86MPixel/s
Multi-Media Float x8 iSSE2
237MPixel/s 350.2MPixel/s 397.47MPixel/s 477.37MPixel/s
Multi-Media Double x4 iSSE2
128.62MPixel/s 190.87MPixel/s 216.17MPixel/s 260MPixel/s
Multi-Core Efficiency Benchmark
多核效率测试
Inter-Core Bandwidth
71.15GB/s 80.7GB/s 84GB/s -
Inter-Core Latency
(越小越好)
18ns 18ns 16ns -
Cryptography Benchmark
加密解密性能测试
Cryptographic Bandwidth
      3GB/s
AES128-ECB iAES
Cryptographic Bandwidth
      2.88GB/s
SHA256 iSSE4 Hashing Bandwidth
      3GB/s
.NET Arithmetic Benchmark
.NET算术性能测试
Aggregate .NET Performance
      89.47GIPS
Dhrystone .NET
32.11GIPS 32.2GIPS 37GIPS 31.67GIPS
Whetstone .NET
79.56GFLOPS 115GFLOPS 123.43GFLOPS 147.26GFLOPS
.NET Multi-Media Benchmark
.NET多媒体性能测试
Aggregate .NET Multi-Media Performance
      90MPixel/s
Multi-Media Int x1 .NET
59MPixel/s 88.64MPixel/s 100.36MPixel/s 127.38MPixel/s
Multi-Media Float x1 .NET
25.22MPixel/s 37.73MPixel/s 42.42MPixel/s 52.7MPixel/s
Multi-Media Double x1 .NET
48.3MPixel/s 68.45MPixel/s 78.48MPixel/s 102.48MPixel/s

 

Sandra在测试Multi-Core Efficiency项目的时候出错,因此这个项目没有成绩,推测可能是Sandra对Nehalem-EX略显复杂的拓扑结构支持不足导致。从总成绩来看,M910要比对比的最高端双路平台要提供20%多的计算性能。

#p#

SiSoftware Sandra缓存内存测试主要包括内存带宽、内存延迟等性能的测试。

 

SiSoftware Sandra Pro Business 2010
测试对象
双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
Memory Bandwidth Benchmark
内存带宽测试
Aggregate Memory Performance
      33.86GB/s
Int Buff'd iSSE2 Memory Bandwidth
38GB/s 35GB/s 35.2GB/s 33.86GB/s
Float Buff'd iSSE2 Memory Bandwidth
38GB/s 35GB/s 35.18GB/s 33.85GB/s
Memory Latency Benchmark(Random)
内存延迟测试(随机)
Memory(Random Access) Latency
(越小越好)
80ns 83ns 82ns 192ns
Speed Factor
(越小越好)
55.50 57.00 64.60 98.10
Internal Data Cache
4clocks 4clocks 4clocks 4clocks
L2 On-board Cache
11clocks 10clocks 10clocks 10clocks
L3 On-board Cache
49clocks 57clocks 60clocks 84clocks
Memory Latency Benchmark(Linear)
内存延迟测试(线性)
Memory(Linear Access) Latency
(越小越好)
7ns 7ns 7ns 41ns
Speed Factor
(越小越好)
4.80 5.10 5.50 20.70
Internal Data Cache
4clocks 4clocks 4clocks 4clocks
L2 On-board Cache
10clocks 11clocks 11clocks 10clocks
L3 On-board Cache
13clocks 13clocks 13clocks 34clocks
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
142GB/s 183.26GB/s 195.6GB/s 315GB/s
Speed Factor
(越小越好)
21.20 31.00 35.20 34.80
Internal Data Cache
471GB/s 663.51GB/s 744.49GB/s 919.66GB/s
L2 On-board Cache
295.4GB/s 537.88GB/s 611GB/s 749GB/s
L3 On-board Cache
      336.6GB/s

 

从结果来看,内存带宽和内存延迟上M910都不占优势,这是由于:主频较低、内存存取通路较长、内存频率较低以及M910进采用了单内存控制器配置,Cache/Memory带宽表现良好则是因为新的环形总线架构。无法解释的是L3缓存的延迟,甚高,不太符合笔者之前的猜测,是否是M910的缘故?这要等笔者测完另外两台Nehalem-EX机器才能知晓了。

#p#

SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

 SPEC CPU 2006整数性能测试

和Sandra的成绩略有不同,在这里,M910的性能和基于X5680的平台差不多,略高一些,这应该是内存子系统方面的问题,M910下四路Nehalem-EX每路仅使用了一个内存控制器,在456.hmmer 基因序列搜索、464.h264ref 视频压缩这两个测试项目当中,M910还不如上一代的Dunnington。

#p#

SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

 SPEC CPU 2006浮点性能测试

看起来浮点项目上对内存带宽要求的更多一些,M910的整体性能表现比Westmere-EP平台要低。

#p#

CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。

 CineBench R11.5性能测试

 

CineBench R11.5 64bit
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
显卡 - - - -
CPU Benchmark
Rendering (1 CPU) 1.02 pts 1.02 pts 1.16 pts 0.78 pts
Rendering (x CPU) 9.92 pts 14.58 pts 16.40 pts 19.26 pts
Multiprocessor Speedup 9.68x 14.33x 14.18x 24.65x

 

可以说,表现不错,相对双路X5680提升的比率(17.4%)和理论计算性能的比值(Sandra:高20%)很接近,不足部分可能是由于M910内存控制器配置上的缘故。

#p#

这三个测试是Intel推荐的项目之一,因此笔者也使用其进行了测试:

 

MMM - Matrix-Matrix Multiplicaion Benchmark
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
单位 GFLOPS GFLOPS GFLOPS GFLOPS
Threads 1
5000 step 7.821975 7.842319 8.877563 5.867645
10000 step 7.890761 7.840417 8.883291 5.865347
15000 step 7.888751 7.845479 8.881528 5.826604
Threads 2
5000 step 15.59136 15.62796 17.5891 11.570261
10000 step 15.7544 15.66469 17.73566 11.689317
15000 step 15.7445 15.64657 17.67208 11.602247
Threads 4
5000 step 30.69218 29.99696 34.85343 21.788607
10000 step 31.02227 29.75883 34.90105 22.21115
15000 step 31.04954 30.55926 34.92557 22.073702
Threads 8
5000 step 36.2252 49.03697 45.99856 41.228878
10000 step 38.21083 50.30305 45.99856 43.472432
15000 step 40.71236 56.00031 47.74417 43.37777
Threads 16
5000 step 59.38371 64.04222 66.10022 73.379889
10000 step 61.44583 62.42291 72.38159 78.596851
15000 step 61.83442 64.3761 73.2495 79.099092
Threads 24
5000 step 54.82514 84.13599 66.10022 94.000418
10000 step 54.82514 88.58685 72.38159 124.028823
15000 step 59.18915 90.12297 73.2495 124.574801
Threads 48
5000 step       97.335138
10000 step       119.780984
15000 step       121.637469

 

MMM是一个类似矩阵乘法基准测试软件,得到的结果单位是GFLOPS,也就是说它是一个浮点测试。可以看到,M910平台/Nehalem-EX平台具有着最高的计算能力:121.6GFLOPS,表现比Sandra的结果更抢眼。MMM和Linpack一样,都能充分地利用CPU运算核心的能力,因此它实际上建议关闭超线程来测试。

 

SunGard Adaptiv Analytics Benchmark v4.0
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
Threads 16 24 24 48
Time
(lower is better)
138.076s 110.331s 94.911s 139.512s

 

这个测试程序是SunGard风险分析管理套件的一个部分,多线程的优势并不大,反而是高频率的好处多一些,因此M910平台是垫底的。

 

black_scholes
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
Threads 16 24 24 48
Time
(lower is better)
9.17s 6.16s 5.51s 4.40s

 

black_scholes是对布莱克-肖尔斯期权定价模型进行计算的一个程序,布莱克-肖尔斯期权定价模型是由1997诺贝尔经济学奖的两个获得者创立和发展的模型。可以知道,这个测试对多线程的支持比较好,M910取得了最好的性能。

#p#

EVEREST主要是一个系统信息查看工具,它也具有一些性能测试项目,可以用来参考。我们先来看看它获得的硬件信息:

 EVEREST性能测试

 EVEREST性能测试

 EVEREST性能测试

 EVEREST性能测试

 EVEREST性能测试

 EVEREST性能测试

 

EVEREST Ultimate Edition 5.50.2100
Benchmark Module 2.4.273.0
测试对象
双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
@16x LCPU
内存读取
14279 MB/s 13293 MB/s 13689 MB/s 3568 MB/s
内存写入
8865 MB/s 7526 MB/s 8324 MB/s 2143 MB/s
内存复制
11878 MB/s 10430 MB/s 10616 MB/s 2753 MB/s
内存潜伏
64.5 ns 68.7 ns 67.0 ns 16.6 ns
CPU Queen
46138 46082 52461 32185
CPU PhotoWorxx
58330 73372 73828 58556
CPU ZLib
193850 KB/s 282989 KB/s 319463 KB/s 236148 KB/s
CPU AES
46774 849298 844363 32098
FPU Julia
22410 32730 37178  
FPU Mandel
12096 16349 18583  
FPU SinJulia
10978 16429 18706  

 

基本上……用EVEREST测试多路平台不靠谱,它最后测试时只使用了16个逻辑处理器,其结果没有太大意义。

#p#

解读:w/HTT的意思是with HTT,也就是“在超线程状态下”,w/o HTT意思是without HTT,也就是“不在超线程状态下”,TB则是Turbo Boost睿频技术,4P24C48T指的是4处理器(Processors)、24核心(Cores)、48线程(Threads)。依此类推。GbE是Gigabit Ethernet(千兆以太网),4 GbE Ports表示使用了4个千兆端口。

数据库性能测试
M910不同数据库性能混战

SQL2005数据库测试
不同平台混战

从数量级上看,在同一个M910下的测试结果没太大不同。不过,在细节上,还是可以看出一些差异来,首先是同为两个千兆网络端口,SQL2008下的峰值TPS低一些,不过没有SQL2005时在400虚拟用户时出现的低谷,显得更为平滑、稳定。而四个千兆网络端口的配置则是全面超过了其他两种配置,并且性能非常稳定(12万Tps左右),这个性能大致上和频率较低的双路Nehalem-EP差不多,比不上新的Westmere-EP。我们分析的结果是,它显示了网络子系统可能存在的瓶颈,也有可能是内存上的问题,因为数据库测试对内存的带宽和延迟都比较敏感。


双BCM5709S双口千兆网卡

Nehalem-EX/DELL PE M910使用的两个Broadcom网络芯片,型号BCM5709S,是个支持8个RSS队列的双口千兆网卡,8个RSS队列是指,在工作的时候它可以将负载分配到最多8个物理处理器核心上,对于具有24个物理处理器核心的M910来说,显得不是很足够。

#p#

DELL PowerEdge M910是我们拿到的首批Nehalem-EX测试样机,Nehalem-EX是Intel在3月底发布的45nm、8核心的Nehalem架构处理器,不过我们拿到的M910搭载的是六核心版本:E7540,频率是2.0GHz。Nehalem-EX面向多路服务器平台,主要目的是提供极强的计算能力、内存扩充能力以及RAS特性。 


Nehalem-EX服务器:DELL PowerEdge M910,需要注意的是,这是一个刀片服务器

DELL特色技术:FlexMem Bridge
DELL  FlexMem Bridge,就是一个桥接的技术 

PowerEdge M910和其兄弟R810搭载了DELL最新研发的FlexMem Bridge技术,笔者将其翻译为弹性内存桥接技术,这个技术通过一个安置在CPU插槽上、外形很像CPU的一个pass-through旁路部件,实现机器在双路或者四路配置下都能完全地利用到所有的32个内存插槽,例如,在使用Xeon 6500系列的时候,机器也可以使用最多达512GB的内存

 DELL特色技术:FlexMem Bridge
图为R810服务器内部,左下角占据了CPU位置的模块就是FlexMem Bridge

这个FlexMem Bridge模块并不是拿到任何机器上都可以使用,实际上,这个技术要求R810和M910在使用四路配置的时候仅使用两个内存控制器的其中一个,这会限制机器的性能。测试中,四路Xeon E7540(2.0GHz、六核心带超线程、单内存控制器、DDR3-1066)配置提供了比双路Xeon X5680(3.33GHz、六核心带超线程、每CPU三通道DDR3-1333)多出20%的纯计算性能(350.47GIPS和246.73GFLOPS ),不过在各种应用项目中略微打了个折扣……笔者认为,R810和M910最好的情况是双路配置(带FlexMem Bridge),这时应该会获得不错的性能。

【编辑推荐】

  1. 单路发挥受限 惠普DL380 G7服务器评测
  2. 简约不简单 惠普迷你工作站评测(多图)
  3. RISC挑战者 至强7500服务器评测(多图)
责任编辑:景琦 来源: IT168
相关推荐

2010-12-10 14:00:41

DELLR910服务器Nehalem-EX

2010-07-05 15:29:40

Nehalem-EXSPEC

2010-06-30 10:28:27

Nehalem-EX处

2010-04-08 11:27:13

英特尔

2010-05-28 16:45:14

戴尔服务器评测

2009-03-26 18:31:25

戴尔Nehalem服务器

2010-07-28 08:51:25

2009-05-27 10:05:27

Nehalem-EXIntel8核

2010-08-06 17:35:21

2010-05-07 09:21:08

英特尔Nehalem-

2016-06-30 12:14:54

戴尔

2010-04-26 14:01:37

Nehalem至强服务

2016-06-14 09:23:33

戴尔

2010-03-30 10:24:59

Nehalem-EX

2009-02-20 11:09:31

英特尔Nehalem

2015-01-22 14:56:32

浪潮

2009-04-08 16:52:42

Nehalem-EX发RISC架构

2013-02-28 09:58:11

服务器市场4路服务器X86服务器

2009-04-01 13:11:01

Nehalem四核Intel

2009-04-14 13:07:29

Nehalem惠普服务器
点赞
收藏

51CTO技术栈公众号