还记得卡通片《怪物公司》吗,那些怪兽深夜从阴暗中爬出来吞噬孩子们的快乐。而性能一步步飞升的超级计算机,不也正如一群巨大的怪兽逐渐吞噬着这个星球上的能源吗?在这个人人都高喊“节能环保”的年代,不论他们实际出于何种目的,能源集约已经深入人心。而一直以来,高性能计算除了些许亮光之外,似乎仍浑然封闭。
本文写于本年度国内高性能计算TOP100发布之后,全球高性能计算TOP500发布之前。以我个人之见,向高性能计算为这个世界做出的贡献致敬,也试图对这个性能当道,Benchmark上位的领域进行一次逆动。无论如何,充当少数的、被专业人士斥做无知的不同意见者。并再次迎接高性能计算性能飞跃的到来,以及那些能耗怪兽的又一次粉墨登场。
困境与希望
笔者认为,真正实现绿色高性能计算仍然困难重重。主要有一下几点阻碍:首先,高性计算采购部门是花钱部门而不负责支付电费;其次,封闭的系统使得技术创新的推动力不足;第三,硬件更新周期时间长。
不过可喜的是,目前已经有越来越多的业内人关注高性能计算的能耗问题。这从近两年TOP500和国内TOP100的评选就可看出。可以想见,随着诸如Green500等以能耗为标尺的高性能计算评选的推动,还有针对高性能计算的虚拟化技术研究的演进,以及未来更具实际意义的,以系统持续应用性能为考量尺度的指标的出现,绿色节能必然会成为新一代高性能计算系统设计研发的焦点。
我尝试对最近三年的TOP500榜单中一些典型的高性能计算系统进行比较,可以看出能耗与计算能力的发展脉络。
多核处理器能耗控制更出色
首先,IBM的BlueGene/L,2007年6月的第29届TOP500中,排名第一的BlueGene/L的峰值性能为367TF,功耗为2124千瓦;2007年11月的第30届TOP500中,排名第一的BlueGene/L峰值性能提升至596.38TF,功耗也提升至2329.60千瓦;2008年6月,第31届TOP500,BlueGene/L被Roadrunner超过而屈居第二,此时BlueGene/L的峰值性能仍为596.38TF,功耗仍为2329.60千瓦,并且一直到今年6最新的榜单出炉,BlueGene/L仍然保持这一性能功耗水平。
第二,BlueGene/P,2007年11月的第30届TOP500中,一套BlueGene/P(安装在德国)排名第二,其峰值性能为222.82TF,功耗为497.60千瓦;2008年6月第31届TOP500,这套BlueGene/P峰值性能仍为222.82TF,功耗为504.00千瓦;2008年11月的第32届TOP500;2008年11月的第32届TOP500,德国这套系统被挤出前十,性能功耗不变;今年6月的第33届TOP500,这套系统重回前十,位居第三,性能骤升至1002.70TF,功耗也骤升至2268.00千瓦。
笔者查阅了一些资料,了解到BlueGene/L和BlueGene/P的主要区别在于P系统核心处理器有四核的PowerPC450组成,L系统的核心处理器由双核的PowerPC450组成。如果用平均性能功耗比来衡量(MFLOPS/W),从上述的数字可以看出,BlueGene/P的平均性能功耗比要比BlueGene/L更出色,因此,可以看出,四核系统比双核系统的能耗控制更出色。
在6月发布的最新榜单中也印证了这一点,榜单显示,搭载四核处理器的系统以迅雷不及掩耳之势席卷整个超级计算机世界500强排行榜,被应用到383个系统当中,并体现出很好的能效水平。有四款系统采用了IBM的九核高级Sony PlayStation 3处理器,Cray公司的两款系统配置了最新的AMD六核上海皓龙处理器。另有102个系统使用的是双核处理器,只有四款系统仍然使用单核处理器。
系统架构越新,效率越高
第三,Roadrunner,2008年6月第31届TOP500,排名第一的Roadrunner峰值性能达到1375.78TF,功耗为2345.50千瓦;2008年11月的第32届TOP500,排名第一的Roadrunner峰值性能1456.70TF,功耗为2483.47千瓦;今年6月的第33届TOP500,排名第一的Roadrunner峰值性1456.70,功耗为2483.47千瓦。
可以看出,Roadrunner是目前为止,TOP500前十名之中能耗控制最好的系统。这主要有两个原因,一是Roadrunner的混合架构,新架构的运用,采用了Roadrunner总共采用了6562个双核AMD Opteron?芯片和12240个Cell芯片;第二,Roadrunner采用了功耗效率最高的QS22刀片(采用Cell核心),在2008年6月的评比中,其平均性能功耗比达到488MFLOPS,而在今年6月的最新榜单中,QS22刀片的平均性能功耗比已经提升至536 MFLOPS。
上述分析表明,系统越新,效率就越高,因为采用了新的节能技术,从而使功耗控制更出色。
其他系统介绍
第四,SGI Altix ICE系列。2007年11月的第30届TOP500中,构建在美国新墨西哥州计算应用中心的SGI Altix ICE 8200以峰值性能172.03TF,功耗856.80千瓦排名第三;2008年6月第31届的榜单该系统数据为峰值性能和功耗没有变化;2008年11月第32届和今年6月第33届,构建在美国爱姆斯研究中心的Pleaieds系统——SGI Altix ICE 8200以峰值性能608.83TF,功耗2090千瓦,分别位居第三和第四。
SGI Altix ICE的架构有些特殊,部分像集群,部分像MPP,据SGI自己说这会挖掘出系统的最大潜能,相当程度的提高高性能计算系统可靠性,并且提供更高的功耗效率。从历届榜单上看,这套系统能耗控制也还可以。
第五,Cray XT系列。2007年6月的第29届TOP500中,Cray 搭建在美国橡树岭国家实验室的一套XT4/XT3,代号Jaguar,以峰值性能119.35TF,功耗618.57千瓦排名第二;2007年11月的第30届TOP500中性能功耗与上届相同;2008年6月第31届TOP500,Jaguar峰值性能提升至260.20TF,提升一倍多,而功耗也提升一倍多,增至1580.70千瓦;2008年11月的第32届TOP500,XT5系统的Jaguar峰值性能骤然提升至1381.14TF,功耗也直线飙升至6950.60千瓦;6月最新一届数据基本相同。XT5系统是目前前十位中能耗最高的,这可能是由于XT5采用MPP(海量并行处理器)服务器和XT5h或混合型服务器,并使用AMD的“低端”四核芯片造成的。
【编辑推荐】