据美国Alliance to Save Energy节能联盟的资料显示,以现在的增长速度来看,如果数据中心的能效不做提升的话,那么它们的用电需求将不停提高,不到10年的时间就可以翻倍,而全球数据中心的电费也将每年再增加2亿~3亿美元。同时,市场研究公司Gartner也预言,在接下来的几年中,世界上一半左右的数据中心将受到电力和空间的约束,能耗会占到IT部门三分之一左右的预算,IT组织在能耗方面的花费将达到硬件花费的四分之一。
而且,大量的IT基础设施(除了服务器之外、还有网络、冷却等设备)所消耗的不仅仅是电力,产生这些电力的能源消耗所带来的环境污染更加令人担忧。因此,在这样的大背景下,以节能、环保、高效为核心价值的绿色IT产品与技术的发展,也就成为了新一代IT产品的创新重点。
现在,IT行业整个范围内,包括从芯片、服务器、存储到网络设备厂商,都希望在自身的产品上做更优化的设计,力图在提升产品性能的同时,推出更为节能的产品。可以说,绿色节能、高效计算已经成为了整个IT界的产品趋势。下面我们就从数据中心的重要组成部分:服务器来对绿色高效计算进行探讨。
早在上一年10月的时候,英特尔发布了使用了45nm工艺制程的Penryn系列处理器。基于Tick-Tock战略,它和上一代65nm的Conroe相比,微架构上的变化并不大,同时依靠于SSE4等变化,性能也可以有比较明显的提升,最明显的地方是由于制程上的大进步,功耗得到了极大的降低。
Tick-Tock战略
按照Tick-Tock规划,Conroe面市1年后的今天,Intel将会推出45nm工艺、基于Core微架构改良的处理器产品,也就是我们熟知的代号为Penryn的新一代Core 2 处理器家族。Penryn家族将基于全新45纳米High-K金属闸极(High-K Metal Gate) 技术,配合经过改良的微架构设计,达成Intel目标每年推出具备增强微架构或全新微架构处理器产品的承诺。
Intel 45nm Penryn处理器
除了Intel已经普遍使用的45nm Penryn之外,AMD也开始将其产品转移到45nm工艺——就在我们的横评进行期间,送来采用65nm AMD Operton处理器的两个厂商浪潮Inspur和戴尔DELL表示他们现在就可以提供代号为Shanghai的45nm Operton处理器,仅需要升级BIOS,就可以完成升级工作,大幅度提升性能。
AMD Shanghai/上海,采用了45nm工艺制程(这也是AMD CPU第一次采用45nm),集成了7.05亿晶体管,拥有共享6M的三级缓存,增强的双通道内存控制器可以同时支持DDR2内存和DDR3内存,内置了最多4条Hyper Transport总线以支持组建大规模并行系统,“上海”还支持AMD的快速虚拟化索引(RVI)的AMD-V虚拟化技术,同时具备48位物理寻址能力,寻址空间可以达到(256TB)。
工艺的进步影响最大的就是功耗,根据我们的测试,Intel的65nm到45nm的工艺转变有着接近30%~40%的功耗降低,AMD的65nm到45nm工艺转变也是有着相似的数字,虽然题目是SPEC测试,不过这一页中进行了简单的功率测试。制程带来的功耗降低可以让厂商们通过直接提升处理器们的L2/L3缓存来提高性能,同时功耗仍然保持在较低的水平,可以说,对能效比这个概念来说是很有意义的。
#p#
Intel严格的按照其“Tick-Tock”战略,在2007年的11月份推出了基于45nm制程的四核处理器,代号Harpertown。相对于上一代65nm Clovertown核心的产品,Harpertown进一步优化了微架构,添加了功能并且升级了主要规格。
Xeon E5430处理器,2.66GHz,12M缓存,1333MHz FSB,具有适中的性能、功耗及价格
高分辨率45nm Penryn核心图片,Nehalem之前的Core架构仍然是基于双核设计的
从65nm到45nm的转变,不仅仅是当前芯片设计在体积上的缩小。此类处理器中还增加了许多新的特性,如全新的英特尔SIMD流指令扩展4(SSE4),可通过47条全新指令加快包括视频编码在内的工作负载的处理速度,从而支持高清晰度画质和照片处理,以及重要的HPC和企业应用。
较高端的X5460处理器,后来Intel还发布了频率更高的X5482处理器
和上一代Clovertown相比,Harpertown处理器将2 x 4MB的L2缓存提升到了2 x 6MB L2缓存,每两个核心共享6MB缓存。Harpertown处理器将不再使用旧的1066MHz FSB,而开始支持更高的1333MHz/1600MHz FSB。由于采用了45nm High-k制程技术,四核Harpertown的功耗依然保持同现有的双核大致相当的水平,TDP为80瓦、120瓦和150瓦,并且频率规格也有所提高,最高端的Xeon X5492处理器可以达到3.4GHz,而上一代Xeon X5365只有3.00GHz。
45nm Penryn的增强Core架构主要基于5大方面的改进
除了采用了更新的45nm工艺,Xeon 5400在微架构方面也做了大量的改进,主要包括以下5个方面:
- Intel Wide Dynamic Execution(Intel宽动态执行)方面的改进着实从处理器基础架构上提升了处理器的运算性能,它包括快速16进制除法器、更快速的操作系统基础支持、增强的Intel虚拟化技术三个部分。与桌面平台相关的主要是16进制除法器,而服务器则可以从所有的改进内容中获益。
- Faster Radix-16 Divider(快速Radix-16除法器)
虽然除法也可以用乘法来代替,不过单独的除法指令、除法运算器部件显然可以提升效能,Penryn架构搭载了新的16进制除法部件,可以提供目前最顶级的除法性能。传统的2进制或者4进制除法只能在每个时钟处理1位或者2位数据(2个位就能表示4个数,也就是4进制的意思),而Penryn 16进制除法器可以每个时钟处理4位数据(4个位就能表示16个数),可以大大提升包括整数、浮点在内的除法性能,并大大优化了平方根的运算,而且Penryn的除法器的Early-out构造可以以极低的延迟输出结果,最小值需要6个时钟周期。除法器的性能提升几乎涉及到了所有的应用程序。
- Faster OS Primitive Support(更快速的操作系统原语支持)
Primitive原语是指一些基本的操作语义,Penryn增强了操作系统的同步原语,通过提升中断遮罩控制以及时间戳计数器的性能,从而达到提升操作系统同步性能的目的。通常的多任务操作系统中,需要通过大量的硬件/软件中断请求来驱动设备、处理时分多任务,这些中断请求处理需要CPU不断地在多个线程之间切换,这些线程的上下文切换将会带来巨大的开销。Penryn的微架构通过减少流水线停顿的方法来增强多线程切换的性能(线程上下文切换会很容易引起流水线停顿)。此外,在繁忙的操作系统中,不同程序中大量的定时器/计数器需要不停地查询时间戳计数器,通过2倍于原来速度的CLI/STI/RDTSC指令执行速度,Penryn架构大大提升了这些应用的性能,例如数据中心、事务处理等应用都可以从中获得明显的提升,这有点像现代芯片组中新增加的精确时钟技术,这个技术可以比较明显地提升繁忙的服务器的性能表现。
- Enhanced Intel Virtualization Technology(增强的Intel虚拟化技术)
作为当前的热点,也是Intel当前专注的部分,虚拟化技术也没有被忽略,这个持续发展中的技术也获得了改进:VM Exit/VM Entry性能获得了25%~75%的提升,在虚拟化应用中,虚拟机切换是很频繁的,VM Exit/VM Enry的执行也就很是频繁,这方面的改进可以明显地改进虚拟机(特别是多虚拟机)下的性能。
- Intel Advanced Smart Cache(Intel先进智能缓存)则进一步提升了缓存性能,以符合未来多核心的趋势,其包括了更大容量的缓存以及更多路的缓存关联,服务器对L2缓存的利用效率是非常高的。
Intel Advanced Smart Cache其实就是L2缓存方面的改进,Penryn处理器家族的L2缓存容量得到了提升,双核心版本将拥有最多6MB、四核心将拥有最多12MB的L2缓存,比上一个版本增大了50%。并且在容量提升的基础上,Penryn还把L2 Cache的Associativity关联性由上一代的16路提升到了24路,令L2缓存存取的平均潜伏期得到了进一步的下降。
- Intel Smart Memory Access(Intel智能内存存取)提升了装载数据的速度,包括强化的存储转发结构和更高的总线带宽设计。
除了更快的1600MT/s总线可以提供更高的存取速度之外,Penryn架构还提供了Improved Store Forwarding强化存储转发特性,通过新的64位载入指令,提升了内存之间、核心之间等的存储转发性能。
- Intel Advanced Digital Media Boost(Intel先进数字媒体增强)则是对数字媒体的一系列优化、增强,包括了SSE4指令集的加入,以及全新的Super Shuffle Engine超级传送引擎,这一点留待下一节介绍。
- Intel Intelligent Power Capability(Intel智能电源特性)则是充分发挥新制程的特点,降低总体能源的消耗,包括了深层关机技术和增强的Intel动态加速技术(该项改进主要针对移动平台)。
#p#
Bensley平台仍然是主流,Stoakley平台形踪难觅
Intel于06年年初发布的Bensley平台在最近的几年内得到了服务器厂商广泛采用。这个平台包括了三款芯片组它们是Intel 5000P、Intel 5000V和Intel 5000X,其中的前两者主要定位于服务器应用,而后者是定位于工作站应用——当然,也可以应用于服务器。为了支持全系列Xeon 5400处理器,Intel在08年还推出了两个新的芯片组系列产品:Intel 5400芯片组和Intel 5100芯片组。
45nm High-K Xeon 5400 DP处理器与采用了Intel 5000芯片组家族的Bensley服务器平台保持了较好的兼容,除了不能支持1600FSB Xeon 54x2处理器之外,可以很好的支持其它的1333FSB Xeon 5400处理器。这对于服务器厂商来说的确是一件好事,他们可以不必放弃已经经过2年市场考验的成熟系统,直接将现有产品升级到Xeon 5400即可得到一款“新产品”了。这也就是我们为什么现在看到的几乎所有服务器都依然固守在Bensley平台上的主要原因。
Intel 5000P、Intel 5000V这两款芯片组的关系就如同以往的Intel E7520和Intel E7320芯片组的关系,Intel 5000P定位相对较高,Intel 5000V定位略低。Intel 5000P和Intel 5000V芯片组的主要区别在于MCH芯片,它们均可以搭配新的6321ESB芯片(又叫ESB2,Enterprise South Bridge 2)或者6700PXH芯片。
Intel 5000P芯片组功能示意图
Intel 5000V芯片组功能示意图
Intel 5100P芯片组功能示意图
Intel 5400芯片组功能示意图
Intel 5000系列芯片组通过独立的点对点系统总线支持两个处理器,完全不同于之前的芯片组采用的共享总线的方式,这被英特尔称之为双独立总线(DIB)。每条总线运行频率为333MHz(1333MT/s),那么安装了FSB1333处理器的系统的前端总线的总带宽最高可达21.2GB/s。
Intel 5000系列芯片组开始支持FB-DIMM(Fully Buffered DIMM)内存,英特尔计划让这种新型的内存全面取代现有的ECC Register DIMM。Intel 5000P MCH支持36bit寻址能力,总共可支持64GB物理内存。MCH支持4个FB-DIMM内存通道,每个通道最高支持4个Dual-Bank FB-DIMM DDR DIMM。因此在非镜像模式下,MCH最高可支持16 DIMM或者最大64GB物理内存,在镜像模式下最大可以支持32GB物理内存。Intel 5000V MCH则仅支持2个FB-DIMM内存通道,每个通道最高可支持4 DIMMs,总共可支持8 DIMM,那么最高内存容量可达16 GB。而Intel 5100则是采用通常DDR2解决方案的产品,也许是Intel观察到了FBDIMM具有昂贵、发热量较大的缺点。5100芯片组确实是面向比较廉价解决方案的产品,它只支持最多双通道内存,而且采用了源自桌面平台的ICH9R南桥芯片组。
每个安装了DDR667 FB-DIMM内存的FB-DIMM通道的读取带宽为5.33 GB/s,所以4个通道最高可以提供21.2GB/s的内存带宽,这正好同FSB1333 DIB总线的带宽相匹配。在双通道配置的Intel 5000V/5100平台上,这些数字都将减半,总带宽为10.6GB/s。
Intel 5000P MCH和Intel 5000V MCH另外一个重要区别是对于PCI-Express总线的支持,5000P MCH支持3个x8 PCI-Express通道,每通道可以进一步配置为2个x4通道,其中1个x8通道(或者配置为2个x4通道)将用于同ESB2通讯。5000V MCH则仅提供1个x8(或者配置为2个x4通道)将用于同ESB2通讯。
崭新的Stoakley平台由45nm Harpertown处理器和5400芯片组组成
Stoakley平台主要在于新的5400芯片组(应用5400芯片组的产品现在仍然不是很多)。Intel 5400 MCH芯片代号为Seaburg,它依然采用了DIB前端总线,工作模式为1066/1333/1600MT/s,可提供17-25.6GB/s的数据传输带宽——可很好的支持Intel Xeon 54x2处理器。为了保证双路四核系统的效能,Seaburg整合了容量高达24MB的Snoop Filter(探听过滤器)缓存。
在以前的5000X芯片组上,我们就已经看到了Snoop Filter缓存的存在,现在Seaburg将5000X的12MB容量扩展的更大。探听过滤器是位于芯片组中的高速缓存标记结构,它可追踪处理器中的高速缓存的高速缓存线状态——只是包括其标签和状态,不包括数据,过滤不必要的SNOOP侦听操作(Snoop操作就是一个处理器核心不时看看其他处理器核心有没有对自己掌握的huancun页面进行了修改),有助于减少处理器的前端总线发生数据堵塞的情况,帮助多个处理器核心更好的协作,以提升多路处理器系统的工作效率。Snoop Filter的容量要大于或等于每个CPU二级缓存容量之和才能发挥最佳的作用,5400系列处理器的二级缓存从5300系列的8MB增加到12MB,相应的5400芯片组中Snoop Filter也由5000X的16MB增加到24MB(两个处理器)。
Seaburg整合了4通道FB-DIMM 533/667MHz内存控制器,最高可提供21GB/s的内存带宽。当然,我们不排除细分市场的需要,会有双通道版本的Seaburg(虽然现在还没有看到)。Seaburg所整合的内存控制器最高寻址范围为38bit(128GB),是上一代MCH的一倍。
从Intel各代芯片组的变迁来看,除了需要对相应的处理器提供支持所做的必需改进之外,Intel芯片组最大的改变就是内存控制器。从本页最后的表格可以看出,目前Intel 5000、Intel 5100和Intel 5400系列芯片组均可支持Intel Xeon 5100/5200/5300和5400中的大部分处理器。只有Intel 5100系列芯片组支持DDR2,而其余的Intel 5000X/P/V和Intel 5400系列芯片组均支持FBD内存。但是在RASUM相关的功能中,Intel 5000X/P和Intel 5400芯片组是相同的,而Intel 5000V和Intel 5100芯片组是相同的,它们均不支持Memory RAID和 Memory mirroring功能。
Intel 5100 | Intel 5000X | Intel 5000P | Intel 5000V | Intel 5400 | |
名称 | 5100芯片组 | 5000X芯片组 | 5000P芯片组 | 5000V芯片组 | 5400芯片组 |
目标应用 | 入门服务器 | 服务器/工作站 | 主流服务器/工作站 | 入门服务器 | 服务器/工作站 |
处理器 | 四核/双核Intel Xeon 5000系列 | 四核/双核Intel Xeon 5000系列 | 四核/双核Intel Xeon 5000系列 | 四核/双核Intel Xeon 5000系列 | 四核/双核Intel Xeon 5000系列 |
处理器数量 | 1-2 | 1-2 | 1-2 | 1-2 | 1-2 |
系统总线 | 1066/1333MHz | 1066/1333MHz | 1066/1333MHz | 1066/1333MHz | 1067/1333/1600 MHz |
MCH 封装 | 1432 FC-BGA | 1432 FC-BGA | 1432 FC-BGA | 1432 FC-BGA | 1520 FC-BGA |
内存类型 | DDR2 | FBDIMM | FBDIMM | FBDIMM | FBDIMM |
内存规格 | DDR2 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667 | DDR2 FBDIMM 533/667/800 |
最高内存容量 | 32 GB(发布时) 48GB(2008年) |
64 GB | 64 GB | 32 GB | 128 GB |
内存通道 | 2xDDR2通道,每通道最多支持3 DIMM(总共最多6 DIMM) | 4xFBD通道,每通道4 DIMM | 4xFBD通道,每通道4 DIMM | 2xFBD通道,每通道4 DIMM | 4xFBD通道,每通道8 DIMM |
内存芯片Mbit支持 | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb | 256 Mb,512 Mb,1 Gb and 2 Gb |
ECC/Parity | 支持 | 支持 | 支持 | 支持 | 支持 |
ICH搭配 | ICH9R | 6321ESB | 6321ESB | 6321ESB | 6321ESB |
ICH 封装 | 676 FC-BGA | 1284 FC-BGA | 1284 FC-BGA | 1284 FC-BGA | 1284 FC-BGA |
PCI-X支持 | N/A | 两个独立64-bit/133 MHz PCI-X段 | 两个独立64-bit/133 MHz PCI-X段 | 两个独立64-bit/133 MHz PCI-X段 | 两个独立64-bit/133 MHz PCI-X段 |
PCI | 4 PCI (此外,MCH提供6个PCI-E 1.0a x4端口,并且可根据情况配置为x4,x8 or x16,ICH9R可提供6个PCI-E x1端口) | 6 | 6 | 6 | 6 |
IDE | N/A | 双通道UltraATA 100 | 双通道UltraATA 100 | 双通道UltraATA 100 | 双通道UltraATA 100 |
Serial ATA | 6个SATA 3Gbps端口 | 6个SATA 3Gbps端口 | 6个SATA 3Gbps端口 | 6个SATA 3Gbps端口 | 6个SATA 3Gbps端口 |
USB端口/控制器 | 12 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 | 6 USB 2.0端口 |
LAN MAC | 整合10/100/1000 | N/A | N/A | N/A | N/A |
RASUM | DIMM sparing Patrol and Demand Scrubbing ECC and SDDC a memory location can be poisoned |
DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA |
DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA |
DIMM sparing Patrol and Demand Scrubbing ECC and SDDC a memory location can be poisoned |
DIMM sparing Memory RAID Memory mirroring x4 SDDC Memory ECC HUB interface ECC DMA |
I/O管理 | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO | SMBus 2.0支持/GPIO |
PCI-X控制器 | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub | 6700 PXH 64-bit PCI Hub |
WSE 封装 | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA | 567 FC-BGA |
WSE PCI | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s | 最多支持3个PXH 64-bit hub组件,每个最大带宽可达4 GB/s |
WSE PCI Masters | 每个PXH包含两个独立的64-bit PCI/PCI-X接口,最大PCI接口总线速度:66 MHz;最大PCI-X接口总线速度:133 MHz | 每个PXH包含两个独立的64-bit PCI/PCI-X接口 | 每个PXH包含两个独立的64-bit PCI/PCI-X接口 | 每个PXH包含两个独立的64-bit PCI/PCI-X接口 | 每个PXH包含两个独立的64-bit PCI/PCI-X接口,最大PCI接口总线速度:66 MHz;最大PCI-X接口总线速度:133 MHz |
#p#
一般的评估服务器都采用RASUM评价体系或者RUMA评介体系,两者的内容非常的相似,RASUM为Reliability(可靠性)、Availability(可用性)、Scalability(可扩展性)、Usability(易用性)、Manageability(可管理性)的缩写,RUMA为Scalability(可扩展性),Usability(易用性),Manageability(易管理性),Availability(可用性)。这些评估准则均是从长期的实践中总结出来的,符合这些准则的服务器产品可以更好的为用户服务。我们依据这些基本的准则结合我们的实际测试环境对于服务器的以下几个方面进行了评估。
一、性能评估
2005年度服务器横评之后,我们认为当时的网络实验室无法满足今后继续发展的服务器测试的需要。所以,2006年我们IT168评测中心又斥资几十万对于IT168网络实验室的服务器测试平台进行了大幅度的升级,为思科Catalyst4500千兆交换机(WS-X4013+ Supervisor Engine II-Plus和WS-X4548-GB-RJ45)增加了一个思科全千兆24口模块WS-X4424-GB-RJ45,可同时连接72个千兆铜缆设备和2个光缆设备。另外,我们还购置了29台Dell PowerEdge SC430塔式服务器和原来的32台主流配置PC一起为服务器测试平台的提供负载。2007年,我们又采购性能更强的部分客户端,来确保为新一代的服务器提供足够的测试负载。
Catalyst4500千兆交换机
部分Dell PowerEdge SC430服务器
在新的测试环境下,我们进一步完善了服务器性能测试方案:
-
SPECCPU2006 v1.0.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,而后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(对于SSE3,使用的是QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64bit Windows Server 2008 Enterprise下完成,每台待测试服务器至少配置12GB内存。
-
IOMeter 2006.7.27
IOMeter是一款功能非常强大的IO测试软件,它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。在这次的测试中,我们仅仅让它在本机运行测试服务器的磁盘性能。为了全面测试被测服务器的IO性能,我们分别选择了不同的测试脚本。
-
Max_throughput(read):文件尺寸为64KB,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取吞吐量
-
Max_IO(read):文件尺寸为512B,100%读取操作,随机率为0%,用于检测磁盘系统的最大读取操作IO处理能力
-
Max_throughput(write):文件尺寸为64KB,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入吞吐量
-
Max_IO(write):文件尺寸为512B,0%读取操作,随机率为0%,用于检测磁盘系统的最大写入操作IO处理能力
-
SiSoftware Sandra v2009
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3 & SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台,这也是我们选择这款软件的原因之一。
-
NetBench v7.03
NetBench是针对文件服务器的性能测试软件,影响NetBench性能的主要是服务器的磁盘子系统,服务器磁盘控制器、条带大小、读写缓存、硬盘类型、组建磁盘阵列模式、内存容量、网络拓朴结构等都会对测试结果有明显的影响。我们在被测服务器上设立了文件服务器,NetBench通过网络实验室中60个客户端来模拟网络中的PC向文件服务器所发出的文件传输请求,文件服务器则将存储在磁盘上的文件数据发送给相应的客户端。在测试过程中,客户端会以每四台一组的步进依次增加并且向服务器发送文件传输请求,测试结束后控制台收集数据并绘制出服务器的数据传输变化曲线。
-
Benchmarkfactory 4.6
大部分的服务器应用都同数据库有着密切的联系,因此我们今年开始着手在在服务器测试中加入对于数据库性能的测试。我们选择了Benchmark Factory 4.6软件和Microsoft SQL2000 SP4来测试不同的硬件平台在数据库应用中的表现。
我们选择了BF内置的标准测试脚本AS3AP,这项测试可用于对于ANSI结构化查询语言(SQL)关系型数据库进行测试,它可用于测试DBMS(单用户微机数据库管理系统),也可用于测试高性能并行或者分布式数据库。
-
系统功耗监测
我们使用UNI-T UT71E智能数字万用表对于被测服务器系统的整体功耗进行了监测,利用随机附带的接口程序,我们可以记录被测服务器任意时间段内的功率变化。
二、主要规格和技术验证
这个部分主要对于送测服务器的物理特性、硬件配置等等进行考察、评估,比如服务器机箱架构、规格尺寸、处理器型号/数量/主频、芯片组、内存型号和容量、磁盘控制器、硬盘型号、磁盘阵列、网卡型号和接口类型、散热设备、供电、扩展槽、IO接口、托架数量等等。此外还对于处理器技术(SMP技术、HT技术、EMT64、Dual Core)、内存技术(DDR、DDRII、FB-DIMM、双/多通道、内存镜像、内存热备、内存侦错/纠错)、磁盘接口技术(SATA、IDE、SCSI、SAS)、磁盘阵列技术(RAID 0、RAID 1、RAID 10、RAID 5)等等进行了全面的考查和验证。
#p#
如上表所示,除了我们的两台基准服务器之外,本次横向评测活动共有8个厂商的10款主流产品,它们都是基于Intel的Nehalem Xeon处理器,其中有一台是单路配置,其余的均为双路配置(但是有一台在测试的时候)。和两台AMD Opteron服务器。
AMD Opteron 2350
在这10款产品中有两款服务器采用了AMD Opteron 2300处理器——代号为Barcelona的处理器,这是AMD在07年发布的主力产品。曙光A650-FX采用的是2350,DELL PowerEdge R805采用的是2354,它们的区别只是频率不同,2350频率是2.0GHz,2354频率是2.2GHz,此外它们的参数都一样,每个核心有512KB L2缓存,并且共享总容量为2MB的L3缓存。
较高端的X5460处理器,后来Intel还发布了频率更高的X5482处理器
另外的八款产品均采用了Intel 45nm Xeon四核处理器。ASUS RS162-E4(3.16GHz Xeon X5460)和Lenovo R525(3.0GHz Xeon E5450)的频率比较高,它们明显不以省电为目的。排在第三的是Dawning I650-F(2.66GHz Xeon E5430),再后有三台机器采用了2.50GHz的Xeon,只不过DELL PowerEdge 1950 III和五舟5105采用的是通常的E5420,而Inspur NF285E采用的是低电压版本L5420,在其它完全一样的情况下,电压/功耗得到了降低。频率最低的是Aisino 6501R-8和ASUS RS160-E5,采用的是2.33GHz Xeon E5410,这几乎就是频率最低的45nm Xeon了,更低的只有2.0GHz的5405。
所有10款服务器中,AMD平台都采用了NVIDIA nForce Pro 3600(MCP55 Pro)芯片组,Intel平台则都采用了Intel的芯片组,不过型号各不相同,有四款采用了5000P芯片组,占了一半,两款采用了5000V,占25%,剩下的两款一款是5000X,一款是5100。无人采用最新的5400芯片组。
出于部分测试项目的需要,此次横评我们要求厂商为其送测产品配置了较大容量的内存,要求在8GB以上——实际测试的时候,需要的是12GB。在10款产品中,DELL PowerEdge R805和Lenovo万全R525令人瞩目,前者配置了16GB内存,后者配置了24GB内存,巨大容量的内存会在重负荷的科学运算和数据库应用中得到好处。
SAS接已经非常普及,在本次参测的10款产品全部采用了SAS接口硬盘。关于磁盘子系统的详细对比,可以查看本文的第16页。
网络子系统上,在这10款服务器产品中,Aisino 6501R-8、ASUS RS162-E4、Dawning I650-F、Inspur NF285E、Lenovo万全R525、五舟5105共6款产品均采用了Intel的PRO/1000 EB解决方案(巧的是,上一年也是60%的机器采用了这样的方案),对于Intel I/OAT技术提供了完全的支持。剩下的4款产品中,两款AMD平台产品自然不会使用Intel的解决方案,一款用的是nForce Pro 3600主板芯片组自带的MAC功能配合一个Marvell 88E1121 PHY芯片形成双NVIDIA千兆网卡(Dawning A650-FX),另一款用的是比较流行的Broadcom BCM5708解决方案(DELL PowerEdge R805),同样适用5708的还有Intel平台的DELL PowerEdge 1950 III。DELL喜欢使用Broadcom BCM5708网络芯片。最后的一款产品使用的是相对少见的Broadcom BCM5721(ASUS RS160-E5)。可见Intel的解决方案占据了主流,剩下来的几乎就是Broadcom了。
#p#
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。
有一点需要说明的是,Sandra的处理器架构性能测试是根据处理器所能支持的所有指令集中选择进行的,不同的处理器支持的指令集不同,测试使用到的指令集也就不同。例如,Nehalem在这个测试当中就可以使用SSE4.2,而Penryn就只能使用SSE4.1,而Opteron可能就只能使用SSE3了。一般而言,由于可以使用SSE4,Intel的处理器理论性能会比较好。
处理器架构性能测试分为整数和浮点两个部分,AMD的处理器两个成绩分值很接近,而Intel的处理器整数分值则要比浮点分值高出不少,这可以从两个方面解释:第一,这是因为AMD的处理器架构和Sandra的基准测试平台架构很接近;第二,这是因为AMD的处理器可以每时钟周期运行相同的整数/浮点指令(都是三条),而Intel的Penryn处理器不是(整数是三条,浮点是两条)。
ASUS RS162-E4(Xeon X5460,3.16GHz)、Lenovo万全R525(Xeon E5450,3.0GHz)、由于采用了最高频率的两个处理器,因此在性能上取得了最高的分值,而AMD的两款服务器由于较低的频率(2GHz和2.2GHz)和指令集方面的原因,在这个测试上得分比较低。
多媒体性能可以说是Intel的强项,而各种SSE扩展指令集也对多媒体测试助力甚大,这方面的测试结果仍然和处理器架构性能测试一样。
#p#
从2007年开始,我们已经逐渐地将SEPC CPU2000测试过渡到SPEC CPU 2006,在本次横评中我们利用这款软件测试了所有参测服务器。SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、DCC以及科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了当前最新版本的Intel C++ 10.1.025 Compiler、Intel Fortran 10.1.025 Compiler这两款SPEC CPU2006必需的编译器,通过最新出现的QxS编译参数,Intel Compiler 10版本开始支持对Intel SSE4指令集进行优化(对于SSE3,使用的是QxT编译参数)。我们另外安装了Microsoft Visual Studio 2005 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
需要说明的是,SPEC CPU测试是在64位Windows Server 2008 Enterprise下进行的,它可以比较完全地发挥出处理器的优势。
就接过来看,测试得分和Sandra的有共通之处:处理器架构性能测试分为整数和浮点两个部分,AMD的处理器两个成绩分值很接近,而Intel的处理器整数分值则要比浮点分值高出不少。如前面所述,这可以从两个方面解释:第一,这是因为AMD的处理器架构和SPEC CPU 2006的基准测试平台(一台古老的64位Digital Alpha工作站,我们要知道,AMD Opteron处理器和Alpha处理器具有很深的渊源)架构很接近;第二,这是因为AMD的处理器可以每时钟周期运行相同的整数/浮点指令(都是三条),而Intel的Penryn处理器不是(整数是三条,浮点是两条)。比较有趣的是,同样基于Opteron处理器而只是频率不同,Dawning的A650-FX和DELL R805具有不同的整数/浮点倾向,这应该是由于处理器之外的原因。
我们先从一般的应用操作来看,它们多基于整数性能,这方面采用高频率处理器(3GHz以上)的ASUS RS162-E4和Lenovo万全R525再次名列前茅,而采用频率略输一筹的Dawning I650-F(2.66GHz)则跟在后面,其他频率更低的服务器依次排列。
一般的三维内容创作、科学计算则多基于浮点性能,这方面来看Opteron处理器效率非常高(每时钟周期三条浮点指令毕竟强于每时钟周期两条),采用2.2GHz Opteron的DELL R805得分最高,2.0GHz Opteron(Dawning A650-FX)则比3.xGHz Xeon(ASUS RS162-E4、Lenovo万全R525)要低一点。
总体来看,频率最高的ASUS RS162-E4自然拥有计算性能上的优势。Intel平台中,仅配置双通道内存的几台机器排在了后面,不过同样是双通道内存,5000P芯片组(Inspure NF285E)仍然比其他采用5000V/5100的强一些。
#p#
我们利用NetBench 7.03和Ent_dm.tst测试脚本模拟企业级文件服务器应用,通过60个客户端读写被测服务器的共享目录来考查被测服务器做为文件服务器时的表现。
影响这项测试的因素比较多,磁盘子系统性能(IO处理能力和吞吐量)、网络连通能力等等,在这项测试中DELL PowerEdge 1950 III(PERC 6/i R硬件RAID 0)在平均值和峰值中都取得了第一,再接下去比较显眼的是Dawning I650-F(8708ELP硬件RAID 5),同样RAID 0,基于HostRAID的两台华硕就没有这么高的性能——8708ELP配置为RAID 0的话性能会更高,不过对于保存资料的文件服务器而言,RAID 0看起来不是个好主意。
DELL PowerEdge 1950 III常用的DELL PERC 6/i Integrated SAS RAID Controller,硬件RAID 5/6/50/60阵列卡,256MB内存,两个4x宽端口(每口四个SAS设备)
DELL PERC 6/i IR可以支持RAID 5/6/50/60,然而DELL PowerEdge 1950 II仅配置了两个3.5英寸SAS,因此只能组建RAID 0或者RAID 1阵列。硬件RAID 0的性能从测试结果可见一斑
#p#
我们在被测服务器上安装了Microsoft SQL 2005,按照测试要求建立了数据库。BF在测试之前会在数据库中生成9个表,其中包括4个500万行的表格,每行包括100字节的数据,因此每个表格容量大约是476MB,整个数据库容量为1.86GB。我们用60个客户端模拟了最多1000个用户,在这个数据库中进行查询、添加、删除、修改等操作。
数据库测试同时考验了处理器、缓存-内存、磁盘以及网络。我们作为参考的是测试数据的平均值。从上表可以看出,前三名分别是ASUS RS162-E4(3.16GHz Xeon X5460)、DELL PowerEdge 1950 III(2.50GHz Xeon E5420)、Lenovo万全R525(3.0GHz Xeon E5450),采用了3GHz以上Xeon的两款机器处理能力高很容易理解,不过频率较低的DELL 1950 III能获得比较高的性能就需要特别说明了:首先,它采用了5000X芯片组,带有12MB Snoop Filter缓存,在频繁的内存页面操作上效率较高,其次它的硬件RAID 0性能也比较好。
#p#
我们综合了SPEC CPU2006、文件服务器性能测试和微软SQL2005性能测试得到了服务器的综合性能表现。
综合性能得分以SPEC CPU2006性能测试、文件服务器性能测试和微软SQL2005性能测试的得分为基础,分别占据40%、20%、40%的分值,并以我们配置了Xeon E5430处理器的平台:DELL PowerEdge 2900 III为基准,基准得分定为100。
华硕RS162-E4机架式服务器
处理器频率最高的ASUS RS162-E4的综合性能取得了第一名的成绩。这款服务器采用的是Xeon X5460处理器(Harpertown核心,主频3.16GHz,2x6MB L2缓存),5000P芯片组和8GB FBD内存,磁盘子系统因为采用了4块15000RPM硬盘做RAID 0也很特出,因此综合性能较高也很容易理解。RS162-E4的SPEC CPU 2006性能和SQL2005性能都是最强的,不过由于是SAS控制卡做的HostRAID,并非是纯的“硬”RAID,因此RS162-E4的文件服务器性能并不是最强。
DELL PowerEdge 1950 III服务器
稍后的是DELL PowerEdge 1950 III,虽然处理器频率不高(Xeon E5420,2.50GHz),不过它具有两个优点:首先是采用了5000X芯片组,具有16MB Snoop Filter缓存,可以提升处理器的协作效率,其次是采用了硬件RAID 0模式(使用PERC 6/i IR和两个15000RPM硬盘),磁盘性能比较好,因此在综合性能也很出色(主要是文件服务器性能很不错,缺点是RAID 0的可靠性稍有不足)。
联想万全R525服务器
在90分附近的还有Lenovo万全R525和Dawning I650-F,万全R525的配置非常高:3.0GHz Xeon E5450,16GB FBD内存和LSI Logic MegaRAID SAS 8708ELP控制器,以及12个2.5英寸SAS磁盘,不过在测试中只使用了4个的缘故,因此有些影响到了其文件服务器性能(10000RPM 2.5英寸SAS盘的单盘性能也有些不足),请相信,满配置的R525将是非常强劲的机器。Dawning I650-F采用了2.66GHz Xeon E5430,也采用了LSI Logic MegaRAID SAS 8708ELP控制器,不过使用的是三个15000RPM 3.5英寸SAS硬盘RAID 5的方式,因此文件服务器性能要好一些,整体也能取得较好的成绩。
曙光I650-F服务器
#p#
我们通过测试得到了服务器的功耗数据:
在综合性能上处于前列的四台机器:ASUS RS162-E4、DELL PowerEdge 1950 III、Lenovo万全R525、Dawning I650-F的功耗上则不占据优势。功耗上表现最好的是ASUS RS160-E5,空载功耗(149.1)和满载功耗(241.8)都达到了最低,这符合了其提倡的绿色IT概念符合,它采用了较低频率的处理器(2.33GHz Xeon E5410),采用了高效率的80Plus电源,因此功耗表现良好。
ASUS RS160-E5服务器
DELL PowerEdge R805服务器
浪潮英信NF285服务器
功耗在相近水平的还有DELL PowerEdge R805和Inspur NF285E,前者是由于仅采用了单个10000RPM 2.5英寸的小SAS硬盘,以及功耗较低的DDR2内存,在功耗较低的同时性能也不高。而Inspur NF285E是真正的以绿色计算理念设计的服务器,采用了低电压版处理器(2.50GHz的Xeon L5420), 在功耗表现良好的情况下提供了很不错的性能。
【编辑推荐】