追逐RISC与安腾的脚步
英特尔在服务器框架领域已经走得风生水起,而全新的“Westmere-EX”至强E7处理器也已于今年四月份推出。这款处理器以自己特有的方式进入系统,并当之无愧地成为目前众多服务器处理器当中最为先进的一款。
至强E7处理器在一块芯片上搭载了十个核心,但千万不要把它看成是在八核心“Nehalem-EX”至强7500处理器基础上再塞进两个核心这么简单。事实上至强E7在设计方面要更为优秀。
这套完整的系统设计方案将大量核心与执行线程同高容量的共享三级缓存与高带宽QuickPath互连(简称QPI)技术相结合,进而使供应商能够打造出理论上可以在一套单独的系统映像中扩展出二到三十二个处理器插槽的设备。
而这种程度的可扩展性,是无法从目前市面上流行的英特尔至强5600处理器或是AMD皓龙6100处理器那里得到的。
具备高核心、线程以及插槽数量、大容量内存及带宽、高I/O带宽,除了规模甚巨的RISC/安腾或者大型机系统,至强E7系统几乎已经无往不利。此外,至强E7设备能够运行那些针对核心、线程以及插槽做出了调整的Linux或者Windows系统。
Nehalem-EX芯片架构
随着“Nehalem-EX”至强7500处理器于去年三月的公布,英特尔最终将其旗下的高端芯片产品从缓慢的前端总线架构中解脱了出来。
在很长一段时间内,前端总线架构都作为横在系统可扩展性面前的一道鸿沟存在着。如果供应商希望为自己的设备搭配四个以上的插槽,他们就必须得自主研发芯片组以及四级缓存机制。
Nehalem-EX处理器还推出了一套新的芯片架构,它将处理器核心放置于芯片之外,并在芯片内部设置了共享三级缓存,二者之间通过超高速环状装置加以连接。
这一机制使得核心在共享数据方面比前代设计更为高效——之前的设计是为每个芯片上的核心通过分割分别部署核心与三级缓存。现在的三级缓存环状连接及核心外置设计即将广泛用于各类至强及安腾处理器当中。
今年才推出的至强E7芯片是由英特尔Bangalore芯片实验室设计,并利用该公司的32纳米生产工艺制造得到的。
这款芯片中包含着惊人的26亿个晶体管——尽管比上代至强7500芯片的23亿个多不了太多。这额外的3亿个晶体管用于在芯片上部署两个新增的核心,并将三级缓存的容量进一步提高25%,总量达到30MB。
不过令人感到奇怪的是,英特尔似乎在设计方面有点畏首畏尾。从去年至强7500芯片使用的45纳米制造工艺到今年至强E7芯片所使用的32纳米制造工艺,怎么看后者都应该至少具备12个核心。但现在的实际情况是,英特尔推出的至强E7至少比预计少了两个核心,具体架构如下图所示:
那么为什么至强E7没有像大家预期的那样,以12核心的身份登场呢?
#p# 首先,Linux、Windows以及一些虚拟机管理程序所拥有的扩展能力也就仅限于此了,因此进一步增加核心数量对英特尔公司而言并无实际意义。
此外,尽管很多客户对核心数量情有独钟——尤其是在虚拟环境当中,他们往往希望简单地为每一套虚拟机配备一个核心——但同样有不少客户仍然将主要着眼点放在更高的时钟速度上。
因此英特尔将由45纳米工艺到32纳米工艺的提升略加调整,将核心数量的增加控制在25%,却将时钟速度提高了6%到13%。
此外,芯片尺寸也相应得到了缩小——从至强7500的684平方毫米缩小为至强E7的513平方毫米——这也意味着英特尔已经有能力在单独一个300毫米晶片上部署更多的芯片。这从另一方面也降低了晶片的单位成本。
与此同时,裸片尺寸的缩小为英特尔提高至强E7的产量铺平了道路,因为从理论上来说,使用成熟的工艺生产线(32纳米晶片生产流程的完善要归功于去年个人计算机芯片销量的下滑)加上更小的芯片尺寸,能够有效降低微小瑕疵给大批量或部分至强E7芯片带来质量问题的可能性。
考虑到以上各种因素,采用十核心而非十二核心能够来英特尔带来更为丰厚的利润回报;尤其是AMD的十二核心皓龙6100在处理任务负载方面被不支持同步多线程的超线程技术所拖累,基于这一前提,英特尔的决策似乎更为明智。
鉴于至强E7采用了“Westmere”作为开发代号,顾名思义该芯片是以“Westmere”系列核心为基础,对Nehalem核心加以调整并加入了一些对服务器而言至关重要的功能。
首先要说的是可信执行技术(简称TXT)功能,英特尔原本是将其作为vPro核心PC芯片的安全管理程序保障手段提出。
有了TXT功能,计算机上的BIOS、固件以及管理程序将与上一次启动时所使用的正确配置信息相比照。如果其中有不匹配之处,BIOS、固件或者管理程序将停止启动,直到恶意软件被从系统中查明并删除。
Westmere类芯片还包含了对AES算法的直接处理说明,这一算法通常被用于数据加密及解密工作中。
如果大家认为这不算什么大问题,那么不妨来看看数据库巨头甲骨文。甲骨文已经对其11g R2加密数据库进行了数次测试,结果显示与原始处理器相比,新产品为数据库加密/解密任务带来了呈指数级提升的性能强化(这里说的原始处理器主要指Nehalme以及早期的至强系列服务器芯片)。
值得一提的是,至强E7处理器不出意外地能够支持英特尔TurboBoost功能,该功能能够在核心执行高强度任务时略微提高其时钟速度,也能让那些没被分配到什么有用工作的核心进入休眠状态。
更高的可靠性
由于客户对可靠性的刚性需求不断提高,至强架构也逐渐变得与安腾处理器愈发相似。其中许多设备检查架构(简称MCA)功能原本只在高端RISC以及大型机系统中才能见到。
以至强E7为例,它所拥有的一项双设备数据收集(简称DDDC)RAS功能允许系统从两套独立的内存中读取数据以规避错误,进而有效防止崩溃状况的发生。该功能本来是与于2008年面世的初代“Tukwila”安腾一同出现的。
Tukwila修正版于去年三月同安腾9300携手登场。英特尔公司声称他们为至强E7添加了25种新的RAS功能,而其中大部分来自安腾芯片。
Westmere-EX芯片同样获得了新的经过改良的“Millbrook”内存缓冲芯片,这一机制使得拥有四个插槽的设备能够使用英特尔的“Boxboro”7500芯片组,以获得高达2TB主内存的强大可扩展性;双插槽机型则可将主内存提升至1TB。
这一内存容量是普通至强7500系统的两倍(根据去年发布的支持能力),如果大家会习惯性地为思科、IBM以及戴尔所标榜的结果打打折扣,那么提升结果将更加惊人。Millbrook缓冲芯片的一大强力拓展产品还允许我们使用1.35伏的DDR3内存来代替常见的1.5伏内存。
#p# 至强E7 对安腾
那么至强E7要如何与安腾芯片,甚至是与自身的前任至强系列高端芯片相抗衡呢?答案是,与前者争锋很难,但与后者较量则非常容易。
在英特尔公司看来,安腾迟早会自生自灭——至强架构也是如此。
Skaugen: 至强不再是吊车尾的代名词
英特尔数据中心集团的总经理Kirk Skaugen在今年五月向投资者们坦诚地做出如下发言。
“当我接手数据中心集团时,我们提出了一个存在漏洞的战略目标,即全力保护安腾并且禁止生产至强64位产品,”他解释道。“展望未来,如果事实证明Atom微架构才是大势所趋,我们将坚定地向其靠拢。”
在其后的讲话中,Skaugen指出当前的形势是“安腾不再是头羊、至强也不再是吊车尾的代表”。他同时表示,芯片巨头对于至强E7在处理关键性任务系统方面的20项成功设计感到激动万分,当下至强已经能够应对具备8个、16个乃至32个插槽的设备。
安腾与至强处理器在指令集方面差异明显,因此很难直接将二者加以比较。不过从总体上看,至强在任何特定时期内都将拥有更多的核心数量与更高的时钟速度,尽管这未必会带给后端系统更多的数据吞吐量。
#p# 并不像芯片那样廉价
在这一点上,高端至强E7芯片比安腾要贵得多得多;具体情况比较类似于明年将要推出的八核心“Poulson”安腾与当下的安腾9300在价格方面的比较。
感谢服务器虚拟化以及超级计算机集群,英特尔近几年为此在至强高端产品上加入了不少重要改变,而究其动力,主要来自对内存容量、I/O能力及带宽的需求。
至强7400处理器仍然沿用旧的前端总线设计,专为四插槽及八插槽设备服务。
但在去年三月推出的至强7500中,英特尔调整了Boxboro芯片组,这样一来企业就可以让自己的设备自由支持两个、四个或者八个插槽——也就是说能够在完全不依赖创建统一芯片组的前提下,将多块主板在NUMA或SMP系统中进行整合。英特尔公司做出此举完全是出于对服务器制造商们强烈要求的回应,他们希望为双插槽服务器添加更大的内存容量。
我们提出了一个存在漏洞的战略目标,即全力保护安腾并且禁止生产至强64位产品
与此同时,英特尔还建立了名为至强6500的特殊Nehalem-EX处理器系列,旨在应对高性能计算集群市场的需求。该系列产品只提供了两个服务器插槽,而且在售价上也明显低于至强7500以及其它同级别产品。
有了至强E7,英特尔已经全面开花,将自家芯片产品划分为三个大系,用以对应各类具备不同插槽数量的设备。E7-28XX设备主打双插槽服务器,并拥有六核、八核及十核等版本;以1000单位为基础计算量度,每套的价格区间在774美元至4227美元之间。
如果大家想在四插槽服务器上使用Westmere-EX类芯片,那么E7-48XX芯片将是各位的理想选择。而且依时钟速度与核心数量的不同,售价也不尽相同(价格区间为每库存单位890美元至4393美元,比起E7-28XX来略贵一点)。
现在,如果大家需要八个插槽,那么只有E7-88XX系列能够胜任了,该系列分八核心版本与十核心版本,价格也有进一步上升。这部分支出,我们就姑且把它当成“扩展税”好了。
英特尔公司还没有言明仅仅是在芯片上禁用QPI连接,还是对芯片的深入挖掘可能会引发某些QPI链接出现错误。我们当然希望是后一种情况,不过最终结果很可能是二者兼而有之。
在一般情况下,同样单位的至强E7处理器能够提供比其前辈至强7500处理器高出大约40%的性能。这一成果得益于更大的三级缓存、更高的时钟速度、更大的主内存容量以及其它各类细微调整。
#p# CPU 比较表
下面这组表格是至强E7处理器与当下主要用于中端服务器的“Westmere-EP”至强5600处理器以及专为单插槽服务器设计的新至强E3-1200“Sandy Bridge-DT”处理器的各项数据比较:
英特尔至强系列 : 参数对照表
以上表格(也可以点击此处查看)显示了芯片的核心及线程数量(并不是所有芯片都具备超线程技术),此外时钟速度与芯片上的三级缓存大小也包含在内。该表格还显示了哪些芯片支持TurboBoost以及超线程技术,每款芯片的***功耗(散热设计状况或是简称TDP),还有每1000单位的售价。
Oomph单位成本
在表格中我们还加入了另一项度量项目,该项目名为Oomph单位成本,它在至强架构系列产品的纵向比较方面能起到一定指导作用。这种度量方式以活动核心数量为基础,将该数量乘以其时钟速度,然后再将结果除以芯片成本,最终得到的就是相对的性价比指标。Oomph单位成本忽略了超线程技术在活动性能方面的影响以及处理器架构在运转周期理论说明上的差异。
总体来说,至强E7处理器的Oomph单位成本比至强5600要高出许多,这笔额外的费用主要用于支付内存可扩展性以及更多的核心数量。除非大家购买至强5600系统这种自带内存扩展功能(由思科公司提供)的产品,否则各位在每个插槽上最多只能获得6到9个内存接口,或者说在双插槽设备上利用16GB单条内存构建总量为192GB或288GB的内存。
至强E7的每块处理器能够支持16个接口,也就是说它能为双插槽设备带来总量为512GB的内存(使用单条16GB内存),或是256GB内存(使用价格更为低廉的单条8GB内存)。此外,至强 E7能够支持单条32GB的内存条,这样其20核心与40线程将在需要的时候具备驾驭1TB内存的能力。在一般情况下,至强5600在时钟速度上占有优势,但缓存大小则比较薄弱。
大家需要根据自己的工作负载特点慎重选择所要使用的芯片类型。好消息是至强E7、至强5600以及至强E3芯片彼此之间完全兼容,不过要真正达到上述理论“oomph”值,大家还需要做出一些细微调整。
至强E3-1200芯片以Sandy Bridge核心为基础,与至强E7相比在价格方面优势巨大,但再次重申,这个系统的芯片只拥有两到四个核心以及单一插槽。(在表格中,带星号的栅格显示的是具备HD集成图形GPU的至强E3-1200芯片,它实际上主要是为单处理器工作站所打造,而非针对服务器。)
#p# 海量基准测试:至强E7系统对其它系统
使用至强E7处理器的设备才刚刚面世,因此其在基准测试中的表现应该比实际能力要略逊一筹。至今还没有人使用至强E7处理器进行TPC-C在线事务处理测试并公布结果,但SAP销售与分销(简称SD)、SPECvirt_sc2010服务器虚拟化测试以及TPC-H数据仓库已经成为新产品的试金石。其中TPC系列测试尤为重要,因为其中包含了度量定价与性能指标的综合论证意见。
首先让我们看看SAP SD测试,这是一套拥有双层(数据库层与应用程序层)机制的测试,用于模拟用户登录SAP ERP套件中的销售模块以及进行事务处理的状况。
IBM Systemx3850
作为当前四插槽机架服务器中的骨干力量,IBM公司在其配备了十核心至强E7-4870处理器(2.4GHz)的System x3850上进行了SD测试。X3850采用微软Windows Server 2008 R2及IBM自家的DB2 9.7数据库,能够在99%的CPU使用率之下支持一万四千名用户以平均0.92秒的响应时间进行业务处理。
惠普ProLiant BL680c G7
惠普ProLiant BL680c G7刀片服务器使用相同的处理器数量与核心数量(40个),能够在保持响应时间与CPU使用率不变的情况下支持13550名用户。而仅仅采用E7-2870处理器(2.4GHz不变,但总核心数为20个)的惠普BL620c G7刀片服务器则只能在同样的条件下支持6703位SD用户(惠普在测试中使用的是Windows系统及SQL Server 2008)。通过比较,采用六核心3.33GHz至强X5680处理器的双插槽DL380 G7服务器能够在Windows堆栈中支持5075位SD用户。
显然,至强E7在双插槽设备中的性能表现要远远超过自己的同胞兄弟Westmere-EP。
至强E7在与目前皓龙处理器的性能较量中也占得上风。采用四块2.5GHz AMD皓龙6180SE处理器的ProLiant DL585 G7(总核心数达48个)能够支持9450位用户——这比至强E7四插槽设备在测试中的性能表现低了约三分之一。
IBM Power 730、750以及780
至强E7在测试中同样压倒了某些RISC/Unix设备。例如,来自IBM公司的双插槽Power 730采用的是总计12个3.7GHz Power 7核心,在运行SUSE Linux Enterprise Server 11以及DB2 9.7的情况下只能支持5250位SD用户。而使用两块八核心3.55GHz Power 7处理器的Power 730在运行AIX 7.1以及DB2 9.7的条件下,能够支持8704位SD用户。
除此之外,双插槽的至强E7刀片服务器也在性能上超越了惠普,测试结果是可以支持6703位SD用户。四插槽Power 750系统——作为IBM Unix产品线中的主打型号——配备有四块八核心的3.55GHz Power 7芯片,能够支持15600位用户。这一结果仅仅比使用至强E7的IBM四插槽 System x3850高出了11.4%。
IBM公司的Power 780能够扩展为八插槽,并具备64个3.6GHz核心,其支持能力为37000位SD用户。这一结果明显优于八插槽80核心的惠普ProLiant DL980 G7,后者在运行Windows堆栈的情况下只能支持25160位SD用户。Windows以及Boxboro芯片组在四插槽以上直接扩展方面存在问题。由于新的Sparc或者安腾系统都没有运行过SD测试,因此其性能表现也就无从比较。
SPEC服务器虚拟化测试
SPEC服务器虚拟化测试中的数据要相对保守一些,但同样能够说明问题,也表现出了至强E7在处理虚拟工作负载方面相较至强5600的优势。
IBM公司在一台使用红帽KVM管理程序的BladeCenter HS22V服务器上运行了SPECvirt_sc2010测试。该测试通过让设备处理虚拟机中的Java应用程序服务、Web服务以及邮件服务负载得出结论。
通过不断向设备增加负载并以常规评测图计算总体生产能力,这台配备了两块英特尔3.46GHz X5690处理器的设备支持了84套虚拟机系统,其SPECvirt_sc2010最终测试得分为1367。
该刀片设备拥有由单条16GB内存组成的288GB主内存,因此测试结果并未受到内存容量的限制。IBM公司接着使用一台采用两块E7-2870处理器的双插槽Westmere-EX刀片服务器运行同样的红帽堆栈。(没错,这一型号的处理器是专为双插槽设备打造的,但IBM公司自家拥有具备MAX5主内存扩展能力的eX5芯片组。)
在这两块2.4GHz的E7芯片以及640GB主内存的加持下(刀片服务器本身自带16个内存接口,MAX5扩展装置还额外提供了24个接口,全部使用单条16GB内存),这台来自IBM的BladeCenter HX5服务器用20个核心支持了132套虚拟机系统,并最终得到2144的评分。额外的核心与更大的内存相得益彰,但因此使设备本身得以支持更大数量的虚拟机。
正是上述情况在最近几个季度失去了服务器平均销售价格的走高,而这一趋势也将持续下去。究其原因,并不是用户可以简单地在至强E7或者皓龙6100刀片服务器上部署更多虚拟机系统,当然如果需要的话也可以,最重要的是像数据库或者邮件服务这样任务量繁重的工作现在服务器也已经吃得消了。(RISC或者安腾系统没有运行过SPEC服务器虚拟化测试。)
#p# TPC-H
现在只剩下TPC-H数据仓库基准测试了。这里Sparc与安腾终于登场了,我们可以通过模拟1TB数据仓库的实际应用将它们与Power以及今天的主角至强系统进行比较。
戴尔PowerEdge R910
戴尔在其PowerEdge R910服务器上使用的是红帽企业版Linux 6.0以及来自Ingres的VectorWise 1.6数据库。这台设备配备了四块2.67GHz的E7-8837处理器,每块处理器拥有八个核心(注意,不是十个);该设备同时拥有1TB主内存以及区区2.3TB的硬盘空间。
这台服务器每小时能够处理436789条查询,折后成本为384935美元,经过计算每小时每条查询的成本为88美分。IBM在其System x3850上运行的是Windows堆栈,并配备了八块2.4GHz的至强E7-8870处理器、2TB内存、将近7TB的闪存驱动器。其最终测试结果为每小时每条查询成本1.37美元,这还是在整体运营成本打了七二折之后。
甲骨文Sparc Enterprise M8000
上周,甲骨文大吹法螺,声称一台拥有十六块四核心3GHz Sparc 64-VII+处理器的Sparc Enterprise M8000服务器能够在一小时内完成209534条查询——这种查询吞吐量还不到戴尔设备的一半。
经过***折扣,甲骨文设备的成本为210万美元,也就是每小时每条查询要花掉10.13美元。这台甲骨文设备由甲骨文11g R2企业版与Solaris 10(于本月八号更新)共同配置,而且其折扣幅度竟然达到了令人发指的47%。为了公平起见,甲骨文只为该设备配备了512G的主内存与11TB硬盘空间。也许扩大内存、适当减小硬盘是个不错的选择。
IBM Power 780
IBM公司的Power 780拥有八块由自家制造的八核心4.1GHz Power 7芯片,所接受的同样是1TB级别的TPC-H测试。在使用512GB内存及不到4TB固态硬盘的前提下,这套Power System设备能够在运行红帽企业版Linux 6.0以及Sybase IQ数据库时提供每小时164747条查询;经过***折扣(六七折),该设备售价为112万美元,也就是每小时每条查询耗资6.85美元。
惠普Integrity Superdome 2
惠普Integrity Superdome 2服务器运行的是HP-UX 11i v3(于去年九月份更新)以及甲骨文11g R2企业版,每小时所能处理的查询为140181条,在获得21.8%的折扣后单位查询成本为12.15美元每条。这套Superdome 2设备配备了十六块英特尔四核1.73GHz的安腾9350处理器,三级缓存为24MB。这次测试是一年多之前进行的,而惠普没有使用闪存介质提升性能或是降低硬盘开支。Superdome 2设备拥有512GB内存以及由580块硬盘提供的42TB空间。
如果说TPC-H测试说明了什么问题,那一定是对软件的选择与对硬件的选择同样重要;而产品供应商们则想尽办法避免直接在各自的服务器上运行相同的数据库与操作系统,这样消费者就难以直观地加以比较了。
原文链接:http://www.theregister.co.uk/2011/06/19/xeon_e7_analysis/