现在市场上主流的基于英特尔 Nehalem 和 Westmere架构的Xeon处理器还存在着一些没有被公开的秘密,其中就包括英特尔至强Xeon 7400 系列。当我们对比配备了双核和四核顶级处理器的平台时,我们经常在热情的讨论其中的RAS特性,实际上,这已经是进入了一种误区。SAP, OLTP以及其它高端服务器所配备的功能跟其配备的高端高价至强处理器是成正比的,而普通主流的Xeon处理器在这方面实际上是没有什么建树的。
近期,AMD六核8000系列平台已经开始抢占了不少英特尔至强Xeon X7460的市场,配备AMD四核 dodeca处理器的服务器现在已经成为一线OEM服务器厂商最畅销的产品之一,英特尔最新的至强 Xeon EX系列将要直接面对AMD产品的挑战。
不过,根据Austin的调查显示,英特尔正在将重心放在了其至强X7500系列了, X7560的首要重任就是要击败RISC处理器。对于英特尔来说,这是一个相当有效的布局,RISC市场属于高端市场,比如,其于 RISC处理器的入门级IBM Power 7的起始售价就高达34000美元,为了争夺高端市场,英特尔采用了基于Nehalem 架构的八核心16线程的至强处理器来打头阵,并且处理器都配备了容量高达24MB的 L3缓存,并且拥有了更多的 RAS特性。
英特尔Nehalem-EX至强7500系列
当然,英特尔也没有忘记低端市场,为了延续其在传统的 x86服务器领域的优势地位,英特尔也做好了相应的布局。在AMD推出售价为1165美元的主频为2.2GHz的12核心 6174处理器时,英特尔则在全力推荐其售价高达3692美元 的主频为 2.26GHz X7460,对于英特尔来说,这两个领域的竞争都不是特别的乐观。
面对HPC及虚拟应用领域,AMD提供了众多高性价比、高性能功耗比的产品,这是英特尔至今没有重视的领域,以服务器为例,英特尔重点还是放在高端用户,这些高端用户不惜投入巨额资金来确保其服务器系统的稳定,其在软件方面的花费更是远远超过硬件,这些高端用户对于RSA特价要求相当高,而英特尔现在的定位就是为这些用户提供RAS特性超过 RISC平台,并且其花费低于RISC平台的解决方案,我们也可以将其这种策略称为提供高端领域的“性价比”策略。英特尔据此而推出的配备至强 Xeon 7500的服务就可以拥有 64 核心 (8x8)、128线程及512GB 内存。此外,对于注重RAS特性,但不需要如果高性能的用户,英特尔则提供了 Xeon 6000系列产品供选择。本文我们就来具体了解下配备了 Xeon 7500/6500的 Dell R810。
#p#
二、新RAS特性在新至强处理器上得到充分应用
英特尔宣称,新的Xeon提供了不少于 20项新的 RAS特性,这些特性大多来源于 Itanium,其中一些特性是专门应资深专业IT人士的需求而特别提供的。现在我们就来具体了解一下,有谁见过服务器崩溃是因为CPU损坏而产生的? 每个CPU运行故障的产生大都是因为相关软件的的错误而引起的,在这里,我们并不特别关注极少用到的物理CPU添加和移除功能,相信对于大多数IT业内人士及尖端专业用户都会同意这个观点。绝大多数专业用户都会用巨额预算来保证服务器系统的正常运行,因为一担出错,他们的位置肯定就会不稳,他们将会失去高额的薪水,同时他们所处的公司也将会因出错而造成天文数字的损失。因此这些用户对于系统的稳定性拥有一长串的强烈要求。
Nehalem-EX可靠性
具有讽刺意味的事,出于对于稳定性的要求,人们相当强调对于RAS特性的看中,实际上,对于稳定性危害最大的并不是CPU方面,而是在于内存及软件方面,根据地根据谷歌搜索引擎的统计资料,每年有 8% DIMM会发布可修复错误,有0.22%会发布不可修复错误,现在的服务器内存容量动不动就达到TB级,新的服务器都开始将32、64条内存插槽作为标配,统计显示,内存方面的出现的问题反而比CPU更大。
MCA技术
解决这个问题的办法之一就是MCA(Machine Check Architecture)技术,通过这个技术,系统就会利用 L3缓存来检测并排除“坏”的内存区域而使用“好”的区域来运行相应的软件程序,以确保整个系统的稳定性。拥有更多容量的内存是最有效的解决这方面问题的办法。而 Nehalem EX CPU通过对于 QPI links 应用的提升和改进强化了这方面的性能。
#p#
三、Uncore在Nehalem-EX中的重要作用
让八核心处理器能吃饱实际上也是一样很困难的事情,我们不能简单的把需要处理的数据随便累积在一起让缓存进行处理,我们需要考虑到 uncore 部分。当我们需要八核心全部在满负荷状态下工作时,对于处理器L3缓存的要求就很高了, 英特尔用32位的双循环计数环和八块独立的 3MB 缓存设计来确保 L3缓存可以提供最高 200GB/s数据交换以及低至 21ns的数据延迟,满足最低限度要求的缓存可以过滤延迟带来的性能损失,使其不致于影响整个系统的性能表现
QPI总线
在内存控制器、缓存、 QPI链中间有一个八口路进行着综合管理工作,这同时也增加了 18ns的延迟,其理论数据运行带宽为 120GB/s,每个内存控制器提供了两个SMI通道以满足内存缓冲的需求。这种设计可以起到 AMBs 在 FB-DIMMs 中的作用,DIMM并行的提供位宽通道 (64位/DIMM),缓存在将数据传输到内存控制器之前就预先读满相关数据。这就使得英特尔可以为每块CPU提供四条内存通道,如果没有上述良好的内存传输介面设计,主板上将会布满数以百计的复杂的并行线路。
集成内存控制器
每个SMI单元可以提供 6.4GB/s数据带宽,整个系统就可以提供其两倍即12.8GB/s的总带宽,而每个SMB单元又是由两个DDR3-1066内存组成,每个SMB最大功耗为10W,这也就意味着在工作中,SMB至少要消耗掉7W的功率,在我们提供的DELL的主板图片当中,我们可以看到专门为其设计的小风扇。
每块 CPU都有两个内存接口来与两个 SMB进行通讯,每个SMB又驱动着两个双通道内存插槽,这样算来,每块 CPU就可以支持八条频率为1066MHz的DDR3内存.以最小的每个DDR通道提供两个DIMM插槽来计算,每个CPU可以提供对四个DIMM的支持,因此我们就可以看到四路至强Xeon 7500服务器可以提供超过64个内存插槽的设计,而每个DIMM最高可以支持四倍于16GB容量,因此四路至强Xeon 7500服务器最高可以支持到高达1TB的内存,这也是为什么英特尔Nehalem EX平台才能够提供高带宽以及巨大的内存容量。从另一面来看,这也导致了数据延迟的增加以及因SMB的应用还产生的功耗的增加。
#p#
四、AMD Opteron和Intel Xeon新品简介
现在,只有两款顶级的至强 Xeon X7560处理器才配备了24MB L3缓存,分别是 X7560和 X7550,它们都拥有八核心,其核心频率可以达到 400MHz ( Turbo Boost模式) 如果没有虚拟层,一个单线程的任务甚至会引发八颗处理64个核心来进行操作,而这样也只不过会省下20%的单核心处理些任务的工作时间,当所有的核心都没有满载运行时, CPU 则可能自动将运行频率进行提升,英特尔相关报告也指出,在SAP测试中就出现过低负荷状态下的CPU测试性能比Turbo Boost模式高出3%。
至强7500和6500系列CPU规格
所以采用 Windows 2008 系统的用户来说,增强模式(Turbo Boost)很难应用得上。我们都有这样的经验,在大多数电源管理应用当中,其中的平衡(balanced)功能都不会采用增强模式,增强模式只会在用户选择高性能(high performance)情况下才能得到应用。
Xeon X7560检测信息
而Linux的SUSE SLES 11版本操作系统 (2.6.27 SMP x86-64核心)就不会出现这种问题,现在让我们来看看相关处理器的现在市场价格情况。
至强7500系列规格
#p#
五、Dell R810牵手英特尔Nehalem-EX平台
Dell也开始提供新的性价比较高的产品了,在最新的 Dell服务器产品当中,我们看到了两个很有意思的特别之处,其中之一就是采用了双SD卡冗余配置,与原来提供嵌入式管理程序SD卡系统相比,多了起镜像备份功能的 SD卡。另一个就是新的服务器采用了不超过32条内存插槽设计,适用于只打算配置双路服务器的用户。Dell将其称为“FlexMem Bridge”技术在配置两颗CPU的时候可以使用四路服务器的全部内存插槽,极大的提升了内存扩展性,适应虚拟化等应用对内存容量的需求。在下图中我们可以清晰的看到,主板上只有两个配备铜热管散热技术的CPU散热器。
强大的内存扩展性
散热器下面的CPU
当我们移开散热器,就可以看到相关的芯片了:
芯片(国内生产哦)
拥有大量的DIMM内存插槽在四路和双路服务器系统主板,一眼看上去是相当帅气的,尽管在使用当中会有很多限制,在下图当中,你就可以看到用来为作第二个内存控制器作用的 FlexMem 芯片。
FlexMem内存桥接技术
“FlexMem Bridge”技术的不足就是带来了一些数据处理延迟,但其优点却是更加明显的,它可以为两路服务器提供四路服务器级别的内存设置。Dell的R810 服务器为每块CPU设计了一个内存控制器,在其刀片服务器 M910也采用了同样的设计,而Dell R910 的每块 CPU则配备了两个内存控制器。
Dell R810的定位很清楚的表现它不是追求最高性能的,对于那些不需要超高性能处理器的用户来说,32核心的 Nehalem 架构再配合大容量内存已经足够使用了,实际上在有些领域,拥有16核心的服务器已经完全能够满足这些用户的需求。
Dell R810成功的将 Xeon 7500打入入门级市场,而那些于RAS特性有更高要求的用户则可以选择英特尔的其它高阶产品。
R810的Riser卡
Dell R810配备的是双路Xeon 6500系列处理,因此,配备了两颗 E6540 2GHz, 128GB (32x4GB)内存的售价在14400美元 ,作为参考,配置相近的 R710拥有两颗Xeon E5540 处理器和128G内存,其售价为11400美元 ,四路 Opteron 6100系统最高可以提供48个DIMM内存插槽,并且其售价更加便宜,不过对于需要大容量内存来确保稳定性的用户来说,采用Xeon 7500的 Dell R810 是更有吸引力的选择。
#p#
六、测试平台介绍:
Dell R810配置:
双路 Xeon X7560 2.26GHz处理器
Dell 05W7DG主板,采用英特尔 ICH10R南桥芯片 (BIOS版本为: 0.3.2)
128GB (32 x 4GB) DDR3-1066内存 (海力士HMT151R7BFR8C)
网卡:四Broadcom BCM5709C NetXtreme II千兆以太网卡 (1GB)
Xeon 服务器 1: ASUS RS700-E6/RS4 barebone
双路 Intel Xeon "Gainestown" X5570 2.93GHz, 双路Xeon “Westmere” X5670 2.93 GHz
ASUS Z8PS-D12-1U主板
6x4GB (24GB) ECC Registered DDR3-1333内存
网卡: Intel 82574L PCI-EGBit LAN
电源: Delta Electronics DPS-770 AB 770W
Opteron 服务器 1 (Dual CPU): AMD Magny-Cours Reference 系统
双路AMD Opteron 6174 2.2 GHz处理器
AMD Dinar主板( AMD SR5690+SB750 )
内存:8x 4 GB (32 GB) ECC Registered DDR3-1333
网卡: Broadcom Corporation NetXtreme II BCM5709 Gigabit
电源: 1200W PSU
Opteron 服务器 2 (双路 CPU): Supermicro A+ Server 1021M-UR+V
双路Opteron 2435 "Istanbul" 2.6GHz
双路Opteron 2389 2.9GHz
Supermicro H8DMU+主板
32GB (8x4GB) DDR2-800内存
电源: 650W Cold Watt HE Power Solutions CWA2-0650-10-SM01-1
vApus/Oracle Calling Circle Client设置
第一用户 (Tile one)
Intel Core 2 Quad Q9550 2.83 GHz
Foxconn P35AX-S
4GB (2x2GB) Kingston DDR2-667
NIC: Intel PRO/1000
第二用户 (Tile two)
Single Xeon X3470 2.93GHz
S3420GPLC
Intel 3420 chipset
8GB (4 x 2GB) 1066MHz DDR3
我们的测试其实是有限的,在一年内,我们的测试从典型的 12 至16线程服务器系统到拥有 48 至64线程服务器系统,这同时也反应了服务器市场上性能的增长情况。 之所以选择 Oracle Calling Circle 和vApus Mark I 就是为了精确的测试这些多线程服务器的性能。
#p#
七、Stream TRIAD测试
通过测试的内容我们可以了解服务器的具体性能及其优缺点,首先我们在SUSE SLES 11到平台下进行了Stream TRIAD测试,该测试分为四组数据,分别是复制、scale、添加以及triad(以上三项的综合)。
运行在64位Linux系统上的Stream TRIAD基准测试(最大线程数),数值越大,性能越高
在这项测试中, Xeon X7560表现较弱,英特尔工程师对其理论上高达36GB/s 的带宽报以很大的信心,不过在实际测试中,这个只能达到25至29GB/s。
我们注意到英特尔Xeon X7560的single threaded 带宽最高只能达到 5GB/s( DDR3-1066),而六核 Opteron(DDR2-800)可以达到 8GB/s, 最新的Opteron DDR3-1333内存控制器可以达到9.5GB/s ,几乎两倍于Xeon 7500系列, 不过表现最好的当属 Xeon 5600的内存控制器,达到了12GB/s ( DDR3-1333),由此我们可以看出,为了提升内存的容量,英特尔牺牲了不少带宽来实现。下面我们来看看延迟方面的数据。
CPU |
Speed (GHz) |
L1 (clocks) |
L2 (clocks) |
L3 (clocks) |
Memory (ns) |
Xeon X5670 |
2.93 |
4 |
10 |
56 |
87 |
Xeon X5570 |
2.80 |
4 |
9 |
47 |
81 |
Opteron 6174 |
2.2 |
3 |
16 |
57 |
98 |
Opteron 2435 |
2.6 |
3 |
16 |
56 |
113 |
Xeon X7560 |
2.26 |
4 |
9 |
63 |
160 |
配备24MB L3缓存的Xeon X7560延迟数据相当显眼
CPU |
Speed (GHz) |
L1 CPU (GB/s) |
L2 CPU (GB/s) |
L3 (GB/s) |
Xeon X5670 |
2.93 |
717 |
539 |
150 |
Xeon X5570 |
2.80 |
437 |
312 |
114 |
Opteron 6174 |
2.2 |
768 |
378 |
194 |
Opteron 2435 |
2.6 |
472 |
281 |
228 |
Xeon X7560 |
2.26 |
667 |
502 |
275 |
在许多测试中, L1 和 L2缓存对于测试结果起着非常重要的作用,不过在这里我们重点来看看L3缓存的表现,从上表的数据中我们可以看出, Nehalem EX处理器 L3 缓存表现最出色, Opteron其次,不过由于L3缓存对于带宽要求更高,所以Xeon 7500虽然是现在市场上 L3缓存最强的产品,但其在内存带宽方面的性能要弱于其它服务器CPU 。
#p#
八、Nieuws.be基准测试
Nieuws.be基准测试 |
|
操作系统 |
Windows 2008企业版RTM (64位)
|
软件 |
SQL Server 2008企业版x64 (64位)
|
测试软件 |
vApus + real-world "Nieuws.be"数据库
|
数据库大小 |
> 100GB |
Nieuws.be 是一个创立于 2008年的最新 web 2.0 网站。它利用不同的来源收集新闻,读者可以自主定制自己想看的新闻。Nieuws.be网站有着 100GB 庞大的数据库,并且其容量还在不断增长。测试时几乎所有的数据库负载都是 select(99%),这其中大约有 5% 保存在存储过程(stored procedure)中。网络流量均值为 6.5MB/s,峰值为 14MB/s。而我们测试时使用的千光以太网卡足以应付。
Nieuws.be基准测试结果
通过对比测试结果,双路 Xeon X5670 的成绩比双路十二核心的Opteron 2435领先 6%,不过在高端方面 X7560的表现逊色于Opteron 6174, 这种情况还是因为高内存延迟及低带宽导致的。
#p#
九、SAP S&D 2-Tier基准测试
SAP S&D 2-Tier基准测试 |
|
操作系统 |
Windows 2008 Enterprise Edition |
软件 |
SAP ERP 6.0 Enhancement package 4 |
基准软件软件 |
Industry Standard benchmark version 2009 |
Typical error margin |
Very low |
|
|
|
|
我们进行了SAP SD。测试运行在Windows 2008 Enterpris版本和 MS SQL Server 2005 数据库 (都为64 位软件)环境下。每个 2-tier SD 基准都是在 SAP 最新的第四版 ERP 6 增强包下进行的。测试时的基准文件设置为:并行带来不错的拓展性;低到中的进程间通信(IPC);稍微被内存带宽限制;倾向大容量缓存(内存延迟!);对同步延迟(缓存一致性)敏感。
SAP S&D 2-Tier基准测试
从测试结果我们可以看到,四路 Xeon X7560平台比八核 Opteron 8435(2.6GHz)领先了3%,八路Xeon 7560的表现更是抢眼,已经超过了四路 Power 7服务器。
#p#
十、Vmmark基准测试
VMmark就是一个不错的基准测试方法,该测试将几个普通的工作量同时运行在单独的虚拟机上,每个工作量是一个单一的系统运行基准,运行时产生的多种基准得分的综合就可以得到整个系统的基准评分。从而可以让我们有效评估系统对于虚拟化的支持能力。测试结果可以体现其用于邮件服务器,数据库,文件服务器及网络Java运行的能力。
Vmmark基准测试结果
对比Vmmark的测试成线,我们发现各个平台之间的差距实际上并不是很明显,当然,表现最为出色的当属 Xeon 7500,与主频为 2.8GHz的八路 Opteron 8439相比,四路Xeon 7500领先幅度还是比较大的。
十一、关于功耗
实际上,在这次测试中,性能/功耗比已经成为不可能的任务了,因为在测试中不同服务器的配置,使用的主板,CPUs,内存,风扇对功耗都起着一定的影响,测试中的各个平台硬件组成差异较大,因此进行相关测试说明不了什么问题。比如 Xeon X7560服务器系统拥有四路处理器,配备远程管理卡、SAS/SATA模块并提供了丰富的PCIe 扩展插槽,不过从总体上来看,Xeon X7560系统对电力的需求更高一些,中端,Xeon X7560将提供8个 SMB,需要至少 60W的额外功率,而高端的,Xeon X7560系统则提供了16个SMB,再加上处理器本身的功耗,我们有理由相信英特尔至强 Xeon X7560服务器系列会消耗更多一些的功率。
#p#
总结
我们先对英特尔四核 Xeon X7560处理器进行了测试,双路Xeon Nehalem EX服务器并不意味着会带来顶级的性能,但是它提供了大容量内存解决方案对于提供服务器系统的稳定性能的确拥有相当的优势,出于软件支持方面的原因,我们此次测试并没有对英特尔的RAS特性进行相关检测, 微软保证将会在 Windows 2008 R2版开始支持MCA,而 Red Hat 和 Novell 则将会在它们的下一个版本中实现对MCA的支持。这也就意味着未来的软件支持将会更加完善。
RISC挑战者至强7500
总体上来看, 一个拥有支持ECC 256GB内存的服务器运行VM 时,其中一个VM出错,就可能会导致整个系统的崩溃,在这方面,英特尔最新的至强 Xeon处理器由于增强了RAS特性,可以有效的回避这些问题。采用英特尔新至强平台的Dell R810在运行 ERP, OLTP 及虚拟应用环境下,可以提供更好的稳定性支持。
此外,在关于Xeon 6500 系列处理器的定位上,英特尔将它定位在兼顾价格水平的情况下,提供主流RAS性能,这样对于预算较少又注重RAS稳定性能的用户来说,就可以有了新选择。中端的Dell R910以及高端的IBM X3950 将 x86服务器带到了一个新的水平,价值50,000美元的配备四块共32核心的至强Xeon X7560系统,同时还拥有 512GB内存,同样的价格,你只能购买主频为3GHz,配备64GB内存,拥有16核心 Power 7平台的IBM Power 750系统,虽然 The Power 7或许仍然是现在最快的服务器,但Xeon 7500 服务器可以提供更加强大的性价比。
Xeon 7500处理器并不是为HPC这种家庭多媒体中心电脑而设计,如果你有这方面的需要,AMD可以提供更多物美价廉的选择,此外,7500对于喜欢主流的双核心服务器,注重性能价格比,或者性能功耗比的用户来说也不合适,对于这些用户,现在市场上AMD Opteron 6100是最好的选择,
综合来看,Xeon 7500是目前市场上首款能够真正击败RISC 处理器的产品,相信英特尔公司会借此大力发展,在RAS领域有发挥更大的作用。
【编辑推荐】