下面的评测数据主要来自于国外的anandtech网站,作为第三方机构,我们虽不能说其结果具有不可置疑的权威性,但是不能否认的是其具有很大的参考价值。本篇文章主要就双路服务器进行比较,四路产品的比较我们将留待下一篇文章进行阐释。
在这里我们先再次列出双路市场上至强与皓龙的比较列表:
AMD 6176皓龙看起来有些荒唐,在性能仅提升4% 的前提下,却带了 30% 能耗的提升和 20% 价格的上涨。这颗处理器所要挑战的就是英特尔于近日将要推出的 Nehalem EX 处理器。大芯片的 TDP 和时钟频率是非常相近的。如果你的应用程序扩展性不佳且又不在意能耗的话,那么 至强 X5677 最为适合,这款产品或许是低线程数量的应用程序市场下最快的处理器。
这其中最有意思的莫过于 12 核的 6174 (2.2GHz)、8 核6136 (2.4GHz)以及低功耗的 6128 (2.0GHz)处理器。6174 处理器锁定那些对多线程拓展性良好的应用程序,比如大型数据库以及虚拟化负载。相比双核处理器,8 核6136 更易于分发线程和进程。很多应用程序并不支持扩展到 16 核,额外多出 200MHz 时钟频率也在非常合理的价位。6128 HE 也许是低能耗下低响应时间的利器。
下面是测试平台的说明:
此次系列基准测评对内存的需求没有超过 20 GB(实际测试平台的内存超过 20 GB)。数据库文件放置在 RAID-0 英特尔 X25-E SLC 32GB SSD 上,日志文件则置于另一块英特尔 X25-E SLC 32GB SSD 上。添加更多的驱动器只能够带来大约 1% 的性能提升,因此可以说存储并非此次测评的瓶颈因素。
测评对象:
至强服务器 1:SUS RS700-E6/RS4 barebone (准系统)
处理器:Dual Intel Xeon "Gainestown" X5570 2.93GHz, Dual Intel Xeon “Westmere” X5670 2.93 GHz
主板:ASUS Z8PS-D12-1U
内存:六根 4GB (24GB) ECC Registered DDR3-1333
网络适配器: Intel 82574L PCI-EGBit LAN
电源系统: Delta Electronics DPS-770 AB 770W
皓龙服务器 1 AMD Magny-Cours 参考系统
处理器:Dual AMD 皓龙 6174 2.2 GH
主板:AMD Dinar (AMD SR569芯片组 & SB750 南桥)
内存:八根 4 GB (32 GB) ECC Registered DDR3-1333
网络适配器:Broadcom Corporation NetXtreme II BCM5709 Gigabit
电源系统:1200W PSU
皓龙服务器 2 :Supermicro A+ 服务器 1021M-UR+V
处理器:Dual "Istanbul" 皓龙2435、Dual 皓龙 2389 2.9GHz
主板:Supermicro H8DMU+
内存:32GB (8x4GB) DDR2-800
电源系统:650W Cold Watt HE Power Solutions CWA2-0650-10-SM01-1
vApus/Oracle Calling Circle(是一项Oracle OLTP基准测试)客户端配置
客户端 1(Tile one)
处理器:英特尔 Core 2 四核 Q9550 2.83 GHz
主板:富士康 P35AX-S
内存:金士顿 DDR2-667 4 GB (2x2 GB)
网络适配器:英特尔 PRO/1000
客户端 2(Tile two)
处理器:Single 至强 X3470 2.93GHz
主板:英特尔 S3420GPLC (英特尔 3420 芯片组 )
内存:8GB (4 x 2GB) 1066MHz DDR3
#p#
复杂场景渲染测试
随着英特尔和AMD向处理器中添加更多的核心,保持处理器扩展性面临两大挑战。缓存一致性信息会带来很多延迟并消耗大量带宽,与此同时处理器的核心本身对于带宽需求也与日俱增。因此内存准系统扮演了一个非常重要的角色。因此此次测评使用的基准为Stream TRIAD ,用于衡量内存带宽性能。
测试人员在SUSE SLES 11 系统上运行 Stream TRIAD 基准测试。该测试分为四组数据,分别是复制、scale、添加以及 triad(以上三项的综合)。
运行在64位Linux系统上的Stream TRIAD基准测试(最大线程数),数值越大,性能越高
全新的 DDR 3 内存控制器让皓龙 6100 系列如虎添翼。同使用 DDR-2 800 的皓龙 2435 相比,前者将带宽提升了 130%。这样每个处理核心就分配到更大的带宽,非常有助于 HPC 应用程序。当然 1.8 GHz 的北桥对于内存子系统的限制也是一个小小的遗憾。要是能看到带有高主频北桥的 8 核版本的处理器锁定 HPC 市场是多么的有趣。同样要注意到全新至强 5600 系列对于 DDR3-1333 的控制更为高效。实际测试发现,在 DDR3-1333 DIMM 下,相比老款的至强 5570,前者多出了 15% 的带宽。此次测试结果数据显示,皓龙 6174 占据较大优势。
除了测试内存带宽因素外,另一个评价内存子系统的尺度就是延迟。此次延迟测试中使用的是 Sisoft Sandra 2010。
在 Nehalem 架构下,英特尔将一级缓存的的延迟从 3 个周期延长至 4 个。这种做法意为着在基本架构的演变下,留出将来的可拓展性的空间。至强处理器二级缓存容量虽然最小(256 KB),但是速度最快。至强 X 5570 的三级缓存速度是最快的,但是考虑到至强 X5670 的缓存从 8 MB 增加到 12 MB,因此延迟的优势也基本消失殆尽。英特尔从 DDR2-800 到DDR3-1333 的转变反而减少了大约 15% 的到内存子系统延迟。这对于更多带宽和每个核心较低延迟的 12 核皓龙处理器而言是个好消息。内存延迟性能测试,英特尔至强家族全面获胜!
复杂场景渲染测试:Blender 2.5 Alpha 2 (Windows 2008 R2平台下)
之所以未能采用 3dsmax 2010 来做渲染测试,是因为这是专门针对工作站渲染能力的测试软件,此外 3dsmax 2010 可以说几乎是所有服务器的梦魇。综合考虑测评人员最后还是选择了 Blender。当前最稳定的版本为 Blender 2.49,但最多只能支持 8 个线程。而Blender 2.5 alpha 2 能够支持 64 个线程,出乎意料之外的是,该版本也很稳定,因此就选用了 Blender 2.5 alpha 2。
在 Blender 2.5 alpha 2 中,测评人员选择了 metallic rob 场景渲染,该场景有着非常复杂的光照效果(很多反射)和光线追踪。为了让基准测试更具重复性,于是更改了部分参数设置。分辨率设置为 2560 x 1600;反锯齿设置为 16;禁用后处理中的影像合成;贴图(Tile)设置为 8x8 (X=8, Y=8);线程设置为自动(每个 CPU 一个线程已设定)。
Blender 2.5 alpha 2 中的metallic rob 场景渲染图
让我们先看看 Windows 2008 R2 上的 Blender 2.5 alpha 2的测试结果吧!
Blender 2.5 alpha 2在Windows 2008 R2上的测试结果,数据为时间(秒),越低越好
刚开始测试皓龙 6174 的结果很糟糕,为 44.6 秒,比 6 核的 dual 皓龙处理器还要慢。专业人士指出默认贴图(Tile)设置为 5x5,这会在短时间内对皓龙 6174 处理器构成 100% 的工作负荷压力,但是就长期而言,处理器的工作负荷会下降至 30% 之下。经过一系列的实验之后,终于发现8x8 贴图(Tile)设置适用于所有测试机器,至强和 6 核皓龙速度提升了 10%,而12 核皓龙则更是提高了 40%。通过此次测试结果可以看出,对于复杂场景的渲染,相对皓龙 6174 而言,英特尔至强 X5670 还是占据一定优势。
#p#
简单场景渲染测试:Blender 2.5 Alpha 2 (SLES 11平台下)
Blender 2.5 alpha 2 在 SUSE SLES 11上的测试结果,数据为时间(秒),越低越好
由上图可以看出,测试结果提升了 50% 到 70% 之间,并且对比可发现,排序也发生了变化。可能在 Linux 版本(SUSE SLES 11)的系统下,处理器核心负载的时间更长,而在 Windows 系统下,基准测试的第一阶段处理器负载为 100%,然后就迅速降低至 75%、50% 甚至是 25%。皓龙 6174 在基于 Linux 系统下处理器负载 99-100% 的时间要长很多。
那是不是皓龙 6174 就是我们想要的?目前还不能确定,等到最终的 2.5 版本再说,但就 Blender 的渲染对比测试中,皓龙 6174 是冠军。实惠的价格以及在不太复杂的渲染工作中表现出稍微较高的核心性能比就是皓龙 6174的优势所在。
Cinebench 11.5渲染测试:
Cinebench 10 渲染测试对比,得分越高性能越佳
老版本的 Cinebench 10 基准测试受限于 16 个进程。但幸运的是全新版本的 Cinebench 11.5并没有该限制。尽管 Cinebench 只占 3D 动画市场的一小部分,但其优势在于在家中就能够完成该项基准测试。
从上图可以看到,尽管测试结果很接近,但皓龙 6174 还是惜败于最新的至强处理器。该测试软件的性能测试结果差别随着渲染那些较小且不太复杂的场景时才逐步拉开。
OLTP 基准测试:Oracle Charbench Calling Circle
Calling Circle 是一项Oracle OLTP基准。此次我们测试的是一个 9 GB的数据库。为了减少对存储系统的压力,测评人员将了共享全局区域(Shared Global Area,SGA)增加到 10 GB,此外 PGA 的容量也设置在 1.6 GB。calling circle 的测试结果包括 83% 的 select、7% 的 insert 以及 10% 的 update。calling circle 测试运行十分钟。每次运行都要重复六次,而第一次测试运行的结果都被丢弃。
通过测试结果可以发现,该测试软件并不能够很好地支持对多核心的扩展。皓龙 6174 10 MB 的三级缓存用于 12 个核心,而皓龙 2435 6 MB 的三级缓存用于 6 个核心。由此可以判断出英特尔至强处理器在这项测试高居前列的原因,即每个核心分享的三级缓存。针对OLTP(联机事务处理系统)工作负荷需求,皓龙 6174 不是很好的选择。
#p#
SAP S&D 2-Tier 基准测试
SAP S&D 2-Tier |
|
操作系统 |
Windows 2008 企业版 |
软件 |
SAP ERP 6.0 Enhancement package 4 |
基准软件 |
Industry Standard benchmark version 2009 |
典型误差容限 |
非常低 |
作为全球实时的客户端服务器应用程序,测试人员决定展开SAP SD(销售与分销,2-tier 互联网配置)基准测试。测试运行在 Windows 2008 企业版和 MS SQL Server 2005 数据库 (都为64 位软件)。每个 2-tier SD 基准都是在 SAP' 最新的 ERP 6 增强包 4 下进行的。基准的配置文件保持一致:并行带来不错的拓展性;低到中的进程间通信(IPC);稍微被内存带宽限制;倾向大容量缓存(内存延迟!);对同步延迟(缓存一致性)敏感。
图为SAP SD 2-tier 基准测试,数值越高,性能越佳
测试结果毫无悬念,至强 X5670 在此项测试中战胜了 2.6 GHz 皓龙 8345。
Nieuws.be基准测试:
Nieuws.be测试 |
|
操作系统 |
Windows 2008企业版RTM (64位) |
软件 |
SQL Server 2008企业版x64 (64位) |
基准软件 |
vApus + real-world "Nieuws.be"数据库 |
数据库大小 |
> 100GB |
Typical error margin |
1-2% |
Nieuws.be 是一个创立于 2008年的最新 web 2.0 网站。它能够从各种不同的源头收集新闻,允许读者完全定制化自己想看的新闻。需要指出的是,Nieuws.be网站有着 100GB 庞大的数据库,并且其容量还在不断增长。
几乎所有的数据库负载都是 select(99%),这其中大约有 5% 保存在存储过程(stored procedure)中。网络流量均值为 6.5MB/s,峰值为 14MB/s。测评人员使用了更加庞大的日志,随着 Nieuws.be 越来越流行且复杂,相应的数据库不断增长,请求也相应变得复杂。
Nieuws.be MS SQL Server 2008 测试成绩,数据位每秒请求数量,越高越好
皓龙 6174在此项测试中力拔头筹。通过计算得出,在增加 12 个核心之后,SQL Server 也带来了大约 80% 的性能提升。12 核皓龙 6174要比最好的至强胜出 20%。由此看出,进行数据操作的用户可以选择英特尔最新至强处理器,而进行数据挖掘的用户则可选择最新的皓龙处理器。
VMWare VMmark:虚拟化和整合基准测试
测评人员在此处通过使用VMmark来衡量典型的整合工作负荷,即轻巧的邮箱服务器、数据库、文件服务器以及带有 java 应用程序的网站。简而言之,VMmark能够让你把很多小应用整合到一台实体服务器上。
VMWare VMmark 基准测试结果
很显然,英特尔处理器在此项测试中获得了胜利。同 SAP 市场的策略一样,AMD 还会在自己的性能弱势领域大打价格牌,最新的皓龙处理器可能依然会名列性价比名单中。
#p#
vApus Maark I:性能主导的应用程序虚拟化基准测试
这里使用的 vApus Mark I 测试基准并不能替代 VMmark,只能是互补的关系。VMmark 使用 60 到 120 个轻负载运行,而vApus Mark I 则在 24 台虚拟 CPU 上运行 8 个重虚拟机。尽管当前的 Apus Stressclient 已经改善了对更多数量虚拟 CPU的扩展支持,但在测试中我们将基准测试限制到 24 个虚拟 CPU。
VMWare VMmark基准测试结果
尽管 vApus Mark 对多核扩展性的支持上不太好,AMD 皓龙家族处理器的表现还是很不错的。尽管有一定差别,但是基于这两类处理器的服务器都可做为不错的虚拟化平台。
对运行在Windows 2008 R2 的Hyper-V 做同样的测试。结果如下图所示
运行在Windows 2008 R2 的Hyper-V 做同样的测试
本以为AMD 的处理器会再次夺魁,但却不敌至强 X5670。此外,Dual 皓龙 2435 的表现也让大家眼前一亮。由于 皓龙 6174 在这项基准测试中的扩展支持性较差,因此只有 30% 的性能提升。测试结果差别很小,但是皓龙相对较低的价格或许会弥补该项测试中性能上一丝差距。
HPC 和加密基准测试
尽管AMD 将两颗 346 平方毫米的芯片绑在一起的方法耗资巨大,但鉴于服务器处理器市场利润较大的考虑,这种战略还是行得通的。利润是厂商考虑的事情,激烈的市场竞争只会惠及消费者。对于那些等待使用皓龙处理器工作站用户,不禁发问,额外的核心对于渲染复杂的场景的确有优势,但是在诸如快速简单渲染和定性等其他方面,更高主频和 IPC 的至强 X5600 才是不错的选择。
以下为涉及 HPC 性能的 LSDyna’s(冲撞模拟)、Ansys Fluen(流体动力)的基准测试对比图。
可以看出,四个内存通道以及 12 个核心的确物有所值。在 HPC 基准测试中,AMD 皓龙依然保持着优势。紧随其后,测试人员又进行了 Sisoft Sandra 2010 加密基准测试。需要指出的是一倍的加密性能优势在实际应用中体现不是很大。
Sisoft Sandra 2010 加密基准测试 AES(高级加密标准)
Sisoft Sandra 2010 加密基准测试SHA(安全散列算法)
一旦能发挥至强 X5670 的 AES指令特性,那至强处理器的加密的速度提升很快。前者的速度是老至强 X5570 的19 倍,是最新皓龙 6174 的9 倍。结果显示有着诸多线程的至强 X5670 和皓龙 6174 能够轻易地在此项加密测试中战胜老版本的处理器。
#p#
能耗
由于 Magny-Cours 皓龙处理器才推出一周,因此没有足够的时间去做虚拟化基准测试,此外能耗此时也就此推迟。皓龙 6174 的桌面参考系统在能耗上是无法同至强X5670 1U 服务器相比的。目前测试人员手上有一款非常类似于皓龙 6174 的参考系统的 6 核皓龙系统,主板同样都配有 AMD SR5670 芯片组并装在同样的桌面系统中。可以确定的是皓龙 6174 的闲置功耗要略低于 6 核皓龙 2435,闲置状态下时钟频率都会降低为 800 MH。区别在于 皓龙 6000 系列独具 C1E 模式,当所有的处理器都闲置时,该模式就会启动。
C1E 模式降低能耗非常有限
据AMD 介绍,完全负载下, ACP 为 65 瓦特的 1.7GHz 皓龙 6164 HE 的能耗比 ACP 为55 瓦特 2.1 GHz 6 核皓龙2425 HE 大约多出 4%。AMD 官方测量的数据分别为 225瓦特 和 215 瓦特。此次在皓龙 6174的同样系统下,测试出的数据则为 263 瓦特。超出官方 48 瓦特,即每颗处理器超出 24 瓦特。假设一款低功耗的处理器运行在 65 瓦特 ACP下,那么就可以推断出 2.2 GHz Magny-Cours 需要 89 瓦特的电能,当然 12 核的皓龙能源需求则要比 6 核更大一些,但这绝非很大的能耗提升。
结语
通过上面的测试我们对于新的至强和皓龙处理器在双路平台上的性能对比能有一个比较直观的认识,从中可以看出,在大多数测试中,至强在性能上处于领先的地位,尤其是在基于事务处理型数据库(OLTP and ERP)的应用程序最好选用最新至强处理器,SAP 以及 Oracle Calling Circle 基准测试的结果都说明了这一点,英特尔处理器在这两项测试中占据明显优势,再加上皓龙6100由于核心数量的增加而带来的软件授权费用的提升,皓龙在企业数据库市场情形堪忧。
而在虚拟化市场上,测试人员估算,在虚拟服务器中,大量虚拟机存在的情况下,皓龙 6174性能上要比至强 5670 低 20%左右而两者的价格差距仅有百分之几,再加上功耗方面的原因,至强处理器仍然是优化的选择。
皓龙占据优势的市场大概在HPC方面,在这一市场上,尽管 AMD 的性能优势不是很大,但是考虑到 HPC 市场对于价格的敏感性较高。因此低廉的价格有可能再次成为了AMD获胜的筹码。另外对于数据挖掘的应用而言,20% 的低价优势却带来了20% 的性能提升,12 核皓龙处理器是个不错的选择。
【编辑推荐】