咆哮怪兽胃口巨大,计算能力令人惊叹
两年以来,超级计算机五***头名交椅终于再次易主——而这次成功登顶的新成员并没有使用CPU-GPU混合架构。但在今天于德国汉堡举行的国际超级计算会议上,人们纷纷质疑新冠军是不是应该被看作单片并行计算机的临终绝唱,而由GPU或其它类型的协处理器负责大部分运算工作的混合计算机又会不会成为历史发展的必然趋势。
由IBM公司打造的Sequoia BlueGene/Q超级计算机正在莫尔国家实验室中进行组装
当然,没人能准确预测未来。不过我们确实在莫尔国家实验室中看到了由IBM打造的这头名为“Sequoia”的性能巨兽。在Linpack基础测试中,这套由157万个PowerPC核心构成的庞大设备跑出了稳定运算量16.32千万亿次的惊人成绩。
Sequoia的理论运算峰值高达20.1千万亿次,也就是说在此次基准测试过程中,这套设备在线性系统软件包的运算工作上调用了81.1%的整体处理性能。莫尔国家实验室正是将BlueGene/L原型超级计算机推向商业化应用的温床,因此这个隶属于美国能源部的核技术实验室非常清楚如何充分调动大型并行计算设备的能效,也就是说在技术人员的努力调整下,跑出这样的成绩当属意料之中。而在莫尔国家实验室的精心优化下,Sequoia超级计算机的功耗被调试到非常理想的状态——这台运算巨兽在提供16.32千万亿次处理能力的同时,功耗仅为7.89兆瓦。
另一台位居超级计算机榜单前列的设备——名为K的大规模并行Sparc64-VIIIfx计算机由富士通公司为日本政府所打造,目前已失去冠军宝座——在Linpack基准测试中交出了峰值运算量11.3千万亿次、持续运算量10.5千万亿次的答卷,其稳定执行效率达到了令人印象深刻的93.2%。但这台Sparc怪兽的功耗高达12.7兆瓦,也就是说每瓦特仅能提供830百万次运算量。这意味在功耗方面,Sequoia的能源利用效率达到了K的2.5倍——至少在运行Linpack基准测试时是如此。
到目前为止,五***榜单上排名最靠前的CPU-GPU混合型超级计算机是由位于天津的中国国家超级计算机中心所打造的天河-1A——这套设备采用了英特尔至强 X5760与英伟达Tesla More050 GPU处理器的组合——由于混合编程模式以及CPU与GPU间数据传递速度的限制,它只发挥出了理论运算性能总值的45.4%。在测试中跑出2.57千万亿次成绩的天河-1A超级计算机,其每瓦特运算量只有635百万次。相比之下,Sequoia设备的单位能源利用率是天河-1A的3.25倍——再次强调,这只是根据Linkpack基准测试得出的结论。
不过超级计算机五***榜单只谈性能、不考虑设备构建成本,这也是考量设备强弱的重要因素之一。BlueGene/Q机型中的每个机架都要花费数百万美元——IBM公司并没有透露具体数目,因为从本质上来说这是一款定制型产品——最多可扩展到512个机架且峰值运算能力可达100千万亿次。但问题在于,什么样的家伙会疯狂到花10亿美元来打造这样一个庞然大物?说实话,就连美国政府在这样一笔支出面前也得考虑再三:虽然模拟核实验很重要,但经济环境的萧条惨淡也让他们失去了底气。
问题在于,要想讨论真正名副其实的世界***超级计算机,我们必须从多个方面加以考量:持续处理性能、运算效率、单位能耗产出比以及设备性价比。这么看来榜单的考核标准中有八成符合客观评测意见,但这对于一份权威榜单来说还不够准确(值得一提的是,五***榜单对于各设备的能耗根本只字未提,也就是说准确性还要再打个折扣)。
莫尔国家实验室早在2009年2月就与蓝色巨人订下这份打造Sequoia的巨额合同。这台大规模并行计算机以IBM的18核PowerPC A2处理器为基础,核心芯片为64位,采用Linux内核;其中一个核心作为补充运算单位,另一个充当冗余组件,其它十六个核心则负责日常计算任务。每个计算卡配备一个核心和16GB内存,而每个节点则由32个计算卡构建而成——通过拥有光纤传输模块的5D环状结构,每个节点彼此之间都能自由连通。每16个节点卡通过八个I/O活动抽屉组成一套机座,最终两套机座堆叠起来形成完整的机架。
BlueGene/Q采用40Gb每秒的传输通路,节点与节点之间的延迟被控制在2.5毫秒以内。5D环状逻辑结构则由嵌入式PowerPC A2芯片完成,该芯片拥有1.6GHz主频,包括11个拥有2GB每秒传输能力的接口。其中两个接口能够直接与PCI-E 2.0 x8外设插槽相对接。芯片中央的14端口纵横交换机/路由器支持点对点、协作及消息阻隔功能,同时也实现了节点之间彼此直接访问内存的要求。
与K及其名为“Tofu”的6D环状/网状互连结构相似,旗舰级BlueGene/Q超级计算机在任何量化参数方面都同样精益求精。富士通公司已经将K超级计算机以PrimeHPC FX10系列机型的形式投入商业化运营,量产机型采用16核心Sparc64-IXfx处理器,***扩展运算能力达到23千万亿次。惟一的问题在于FX10的所有机型都由1024个机架构成——其中包含9万8千多个计算节点以及6PB主内存——其运行功耗为23兆瓦,且总造价达到655.4万美元。即使是从高性能计算需求的角度来看,这个价位也太过夸张了。(另外提醒各位硬件发烧友的是,这套设备玩不了孤岛危机,BlueGene/Q也不行。只有Windows架构的超级计算机才能实现大家的这一梦想。)
#p# 五***前十位,IBM力取五席
IBM公司最近在超级计算机五***榜单上的表现非常抢眼,位列前十位的设备中有五席都或多或少与他们有关。
排在K之后,位列榜单第三位的是另一款名为“Mira”的BlueGene/Q设备,它被安置在美国阿贡国家实验室当中。这台超级计算机的各项性能基本上是Sequoia的一半。
榜单上的第四位是SuperMUC,另一款IBM出品的设备,但它采用的是英特尔***推出的至强E5-2680处理器——IBM公司的iDataPlex dx360 M4机架式刀片服务器也采用了这款处理器。SuperMUC是根据IBM公司与欧洲高级计算合作组织(简称PRACE)签订的合约,为德国莱布尼茨超级计算中心所打造的定制机型。这份合约于2011年1月签订,内容要求该设备必须为处理器及iDataPlex主板上的内存条配备水冷装置,而且这套自循环水冷体系必须采用温度相对较高的冷却水(***不超过45摄氏度,即113华氏度)以防止设备组件过热。(我们将在以后的文章中详细讨论SuperMUC这些令人意外的设计。)根据合同规定,SuperMUC的总体造价为110.9万美元,并将稳定运行五年以上;该设备目前拥有14万7千多个至强核心,并在Linpack基准测试中获得了2.9千万亿次持续计算能力及平均效率91%的成绩。这个结果相当令人满意,而且其中***的功臣无疑要数将iDataPlex节点连接起来的、拥有56GB每秒传输能力的FDR InfiniBand网络连接体系。但遗憾的是,这套设备的功耗为3.42兆瓦,也就是说每瓦特只能提供847百万次运算量。在能源利用率方面莫尔国家实验室的Sequoia是它的2.44倍。
位列第五的是天河-1A超级计算机,其2.57千万亿次的运算能力曾在2010年11月***过五***榜单的头把交椅。推出如此野心勃勃的超级计算设备,代表着中国将在未来成为计算能力军备竞赛中扮演不容小觑的后起之秀。
代号“Jaguar”的大规模并行超级计算机在排名中获得第六位,它被安置在美国能源部下属的橡树岭国家实验室,该实验室同样专注于进行核技术研究。Jaguar正处于升级计划当中,目标是将其打造成运算能力达20千万亿次的“Titan”超级计算机。不过整个规划才刚刚开始,Cray公司正在为节点升级***的皓龙6274处理器,并利用“Gemini”XE连接系统与英伟达Tesla M2090协处理器让整套设备的性能迎来飞跃。
到目前为止,Jaguar已经拥有29万8千多个核心,并能够提供1.94千万亿次持续运算能力(其CPU与GPU的协同计算效率为73.9%)。但Jaguar的运行功耗高得令人难以理解——它需要5.14兆瓦电力,也就是说每瓦只能提供377.5百万次浮点运算能力。正是基于这一致命弱点,技术人员才下决心将Jaguar升级为Titan。相比之下Sequoia的能源利用率是它的5.5倍。不过随着今年秋季Titan设备与代号“Kepler”的Tesla K20 GPU正式联手,相信能耗问题将得到大幅度改善。在英伟达公司为自己的GPU协处理器添加了大量现代化创新设计之后,相信橡树岭实验室对于GPU的依赖将给他们带来更多竞争优势。
#p# 榜单上的其它成员
在今年6月份的超级计算机五***榜单上,第七和第八位都被BlueGene/Q设备所占据。第七位是人称“Fermi”的超级计算机,目前被安置在CINECA机构的总部。该组织由54所意大利知名高校联合创建,已经与IBM及Cary公司展开了多年的超级计算设备合作关系。Fermi拥有16万3千多个核心,并在Linpack基准测试中跑出1.73千万亿次稳定运算能力的成绩。第八位名为“JuQueen”,目前正效力于德国尤利希研究中心。这台设备拥有13万1千多个核心,能够提供1.38千万亿次的稳定运算能力。
法国布尔科技集团的“Curie”瘦节点设备——基于Bullx B510服务器节点,采用至强E5-2680处理器以及40GB每秒的InfiniBand连接系统——拥有约12万个核心,能够在处理双精度矩阵数学计算时达到1.27千万亿次的性能表现。这台设备的计算效率为81.5%,还算不错,但每瓦特仅能提供603.7百万次运算能力,这使其在整体能源效率方面的表现差强人意。(之所以一直强调能源利用率,是因为在处理x86或者InfiniBand优化型代码时,能耗性价比的问题会变得更为突出。)
榜单前十名的***一位是由位于深圳的中国曙光国家超级计算中心自主打造的“星云”。利用来自英伟达的Tesla M2050 GPU协处理器,星云使自己以英特尔至强X5690处理器为主的性能搭配更上一层楼。这台设备曾在2010年6月登上过五***榜首的榜眼位置,但两年来在硬件规格上一直没有变动。星云拥有约12万个处理核心,能够提供1.27千万亿次运算能力,但其功耗高达2.58兆瓦。星云的计算效率只有可怜的42.6%,且每瓦能耗仅提供492.6百万次浮点运算能力。
通过对榜单十大竞争者的详细评述,我们可以看到新晋冠军Sequoia的胜出实至名归。无论是性能输出还是能源效率,它都是当之无愧的***者。
顺带一提,英国最近已经有设备向榜单前十名发起冲击,这就是名为“Blue Joule”的BlueGene/Q设备——拥有11万4千多个核心,效力于达斯伯里实验室。目前它在基准测试中的1.21千万亿次运算能力位列五***榜单第13位,这个结果相对于预期确实有些令人失望——达斯伯里实验室最初预测它能够达到1.4千万亿次运算量,并夺得榜单的第十位。到今年11月份,还将有Cray公司代号“Blue Water”的XK6混合型CPu-GPU超级计算机以及橡树岭实验室升级完毕的全新Titan超级计算机对榜单发起冲击,因此要想实现梦想,达斯伯里的技术人员还得利用好这个秋季,看看能不能让Glue Joule百尺竿头、更进一步。
#p# 性能不断飙升,x86渐露颓势
曼海姆大学的Hans Meuer、伯克利国家实验室的Erich Strohmaier与Horst Simon以及田纳西大学的Jack Dongarra每年都会组织两次评选,以保证超级计算机五***榜单的时效性与权威性。其实这份榜单存在的意义并不是指导企业根据运算性能制定采购决策,而是通过最***的设备评估系统设计的发展趋势并对未来走向做出预测。一般来说,超级计算机家族的新成员,都会成为未来一段时间内高性能计算市场上主流系统的风向标。
在最近的这一次榜单整理工作中,一台设备至少要拥有60.8万亿次浮点运算能力才有可能榜上有名。榜单上所有计算设备的处理能力总和达到123.4千万亿次,这比起去年11月的五***榜单的74.2千万亿次总和来高出了66.3%,更是较前一期榜单的58.7千万亿次总和翻了一番。在本次评选中,有20台超级计算机成功步入千万亿次俱乐部,正是它们的出现令运算能力总和得到如此幅度的飙升。不过随着越来越多强大设备的加入,我们发现许多采用GPU协助处理器设计的计算机在榜单中的位置普遍下滑。
说起GPU,目前五***榜单中有58台设备采用了协处理器设计(作为加速器或其它用途),这相对2011年11月榜单的39台有了明显提升。在这58台设备中,有53台使用了英伟达公司推出的Tesla GPU协处理器,两台使用了AMD公司的Radeon显卡,另外两台则选择了IBM公司的Cell处理器。就在一年前,采用GPU的设备还只有17台。这似乎意味着混合型运算设计的趋势已经开始显现,正如上世纪九十年代末Linux开始在超级计算机操作系统角逐中占得一席之地时的情景。
但老牌CPU巨头英特尔公司也打算在GPU协处理器这个新兴市场上分一杯羹;目前他们研发的代号“Discovery”的实验机型已经在榜单上获得第150位排名。Discovery在至强E5-2670处理器之外,还加入了“Knights Corner”MIC x86协处理器。这台设备的峰值运算能力为181万亿次,稳定运算能力则为118,6万亿次,折合每瓦特提供1176百万次运算量。
在CPU方面,本届榜单中共有372台设备(即总体比例的74.4%)采用了英特尔公司的至强或安腾处理器。这一数字比去年11月的384台稍有下滑,这明显是受到BlueGene/Q系列设备的冲击,同时本定于今年春季推出的新款至强E5处理器被延期到秋季也对此造成了不小的影响。奇怪的是,榜单中有246台设备采用了英特尔的上一代至强5600处理器——这比六个月前的240台有所上升。也就是说,目前有44台设备使用至强E5系列处理器,这意味着去年11月已经有10台设备以试用的形式选择了英特尔尚未正式推出的处理器。
目前五***榜单中有58台设备采用Power架构,这比六个月之前的49台有了明显上升。63台设备选择了AMD的皓龙处理器(某些同时采用GPU协处理器,有些则单纯只使用CPU),这一比例在整体榜单中占到12.6%,与去年11月持平。
在CPU的核心数量方面,榜单中74.8%的设备选择了六核或六核以上的处理器产品。榜单中的超级计算机平均拥有26866个核心,几乎比六个月前的18383个核心翻了一倍,而一年前的平均核心数则为15520。目前各设备的平均电力消耗为671千瓦,比去年11月的634千瓦和去年1月的543千瓦有所提高。
另一个有趣的现象是,目前五***榜单中使用InfiniBand技术的设备比使用千兆以太网技术的设备多得多。其中208台设备使用InfiniBand,合计运算能力达到31.5千万亿次,而207台使用千兆以太网技术的设备在合计运算能力方面只有13.3千万亿次。
IBM公司推出的系统出现在今年1月五***榜单中的213台设备中,这占到整体系统装机量的42.6%。如果按照运算能力来统计,蓝色巨人的系统控制着47.6%的设备总体输出资源。由于放弃追求高端机型,惠普公司的系统由六个月前的141台装机量下降到现在的138台——总体数量占榜单的27.6%。Cray公司则拥有5.4%的整体装机量;接下来是布尔集团的3.2%。
IBM与惠普仍然牢牢掌握着全世界大部分高性能计算客户所带来的商业价值,在所有249台商用超级计算机当中,两家的份额合计瓜分了其中的247台。
原文链接:http://www.theregister.co.uk/2012/06/18/top_500_supercomputers_june_2012/