克雷Cascade超级计算机采用空气冷却处理

译文
服务器 服务器产品
克雷公司当初之所以能够中标NERSC-7,一方面归因于采用“Gemini”XE互连技术的“霍珀”(Hopper)克雷XE6皓龙集群大获成功,该集群在Linpack Fortran基准性能测试中获得了每秒1.05千万亿次浮点运算的稳定性能。

劳伦斯伯克利国立实验室(Lawrence Berkeley National Lab)平时为美国能源部开展大规模、非机密的科研项目,它坚持由克雷公司为其提供下一代超级计算机,暂时命名为NERSC-7。

NERSC的全称是美国国家能源研究科学中心,它是世界上规模***的基础科学计算中心之一,位于气候温和的加利福尼亚州伯克利。

克雷公司当初之所以能够中标NERSC-7,一方面归因于采用“Gemini”XE互连技术的“霍珀”(Hopper)克雷XE6皓龙集群大获成功,该集群在Linpack Fortran基准性能测试中获得了每秒1.05千万亿次浮点运算的稳定性能。“霍珀”在2010年秋天投入使用时,在全球超级计算机500强中排名第5位,但是在最近一次排名中掉到了第16名。NERSC-7机器让伯克利实验室又有了机会成功,它将采用未来的“Cascade”系统设计和“Aries”互连技术——克雷一直在为美国国防高级研究项目规划署(DARP)设计这项互连技术。

不过别以为克雷是NERSC-7交易方面的不二选择,因为伯克利实验室在百亿亿次计算(exascale computing)方面的这张路线图显示:

 
伯克利实验室的NERSC系统路线图

这张路线图显示了“富兰克林”(Franklin)克雷XT4系统,这是NERSC-5设备,峰值性能达到每秒101万亿次浮点运算,随后被升级到了四核皓龙处理器,将性能推到了每秒352万亿次浮点运算。NERSC高级技术部门的集团主管John Shalf在2010年8月展示了这张路线图,探讨竭力实现百亿亿次计算系统所面临的问题。

“富兰克林”机器在今年四月刚停止使用,这是NERSC考虑添加一些计算容量的原因之一。但是正如你从路线图看到的那样,就在仅仅两年前,伯克利实验室还认为,NERSC-7可能是搭载GPU协处理器的系统,甚至是未来的BlueGene/Q或BlueGene/R机器(我们还没有听说BlueGene/R),以便峰值聚合运算能力达到每秒10千万亿次浮点运算。

NERSC-7设备的具体硬件规格并未透露,但是克雷方面称,伯克利实验室准备安装一台性能达到每秒2千万亿次浮点运算的Cascade机器,采用英特尔的至强处理器,性能是“霍珀”的两倍。目前不清楚克雷打算为Cascade设备采用什么样的英特尔处理器,但是有可能是目前的“Sandy Bridge”至强E5,也可能是将来的“Ivy Bridge”至强;按照英特尔的摆钟(tick-tock)芯片制造方法,后一种处理器有望在明年开始推出,采用22纳米工艺。

克雷还没有表态它是否在Cascade设备中支持皓龙处理器,或者是特斯拉GPU协处理器,这可能让AMD和英伟达这两家公司有点忐忑不安。两周前克雷在国际超级计算机大会上表示,未来的Cascade机器将支持基于至强Phi x86的协处理器,该协处理器之前代号为“骑士角落”(Knights Corner),采用集成众核(MIC)架构。

克雷的消息灵通人士表示,NERSC-7机器是全新安装的系统;据他们所知,初始合同并没有要求使用至强Phi协处理器。所有运算工作将由至强来处理。但是很显然,伯克利实验室可能会成为至强Phi协处理器的试验床,会将原始性能提升到NERSC-7合同规定的每秒10千万亿次浮点运算这一级别。而这不仅仅是一个随意的数字。

据NERSC的用户服务主管Richard Gerber在今年2月展示的一份演示文稿(http://www.nersc.gov/assets/NUG-Meetings/2012/Gerber-User-Req.pdf)显示,伯克利实验室的用户们正在嚷着要求NERSC-7系统周期提供更高的浮点运算能力。

如果算上这家实验室的所有不同部门:高级科学计算、生物和环境、基础能源科学、核聚变能、高能物理和核物理等部门,预计接下来几年的计算需求到2014年将达到156亿个计算小时,这比实验室在2011年所用的计算小时数量多出十倍有余。这是每秒10千万亿次浮点运算的用户。如果你使用目前的至强E5-2600处理器,把每个插座一个至强Phi装到该系统中,就可以将克雷Cascade机器的原始聚合计算能力***推到每秒14千万亿次浮点运算。

没人说伯克利实验室会这么做,但是它可以这么做。这家核实验室证实的颇有意思的消息是,Cascade系统将被安装到一个“自然冷却”的数据中心,到时将利用从旧金山湾过来的寒冷的室外空气,防止NERSC-7机器因温度过高而熔化。

NERSC的系统部门主管Jeff Broughton在声明中解释:“这种方法完全利用来自冷却塔的水,而不是来自机械制冷机的水,提供了出色的能源效率。湾区的混合气候加上克雷的新设计,这让我们得以将冷却用电量控制在计算用电量的10%以下。”考虑到你用的电平时来自加利福尼亚的电力公司,这确实了不起。

除了每秒2千万亿次浮点运算的Cascade系统外,NERSC-7将使用来自克雷的下一代、尚未宣布的Sonexion Lustre并行文件系统。这些将来的Sonexion阵列对目前的Sonexion 1300s来说将是意外的部件,它们会在明年上半年投入商业市场,就像Cascades一样。该阵列能够支持高达140 GB/sec的可持续聚合输入/输出性能;值得关注的是,克雷会不会把Gemini或者甚至Aries互连技术放在计算集群和磁盘集群的核心部位。

为什么不?目前的Gemini XE互连产品是一种48个端口的YARC(另一块路由器芯片)高阶路由器,其聚合带宽达到168GB/sec,XE6超级计算机中每个核心每秒可以传送大约200万个数据包;这个消息吞吐量相当于SeaStar+互连技术的100倍,它让XE6机器可以扩展到1000 个机柜和大约300万个皓龙核心,如果你想扩展的话。

Gemini是简化版的Aries,它连入到皓龙HT3端口,而不是连入到Aries所用的PCI-Express 3.0端口(可能采用片上PCI-Express链接,就像至强E5处理器拥有的链接。)

NERSC-7交易的金额为4000万美元,已包含集群、存储以及软件许可证和为期多年的支持等费用。如果你想一下十年前克雷帮助桑迪亚国立实验室走上大规模并行运算道路的那台“红色风暴”(Red Storm)超级计算机,NERSC-7就浮点运算能力而言极其划算。

“红色风暴”刚停止使用,它使用***代SeaStar互连技术来连接皓龙处理器,提供每秒43.5万亿次浮点运算的峰值性能;其售价9000万美元,这还不含存储系统的费用。NERSC-7以一半的价格提供了近46倍的性能,如果你想称存储系统是免费品的话。

而存储系统占一半成本的可能性大得多,所以高性能系统上的原始计算能力与仅仅十年前相比更像是便宜了200倍。具有讽刺意味的是,按这种价格来看,百亿亿次机器的售价仍要10亿美元,这样的价格没人吃得消。

原文链接: http://www.theregister.co.uk/2012/06/28/cray_berkeley_lab_cascade_super/

责任编辑:张玉 来源: 51CTO
相关推荐

2020-10-19 11:17:15

数据中心

2011-01-06 14:26:52

微软数据中心

2012-10-09 10:23:27

超级计算机CSCSCascade机器

2021-03-12 17:51:15

戴尔

2010-10-21 11:02:39

思科DC2数据中心

2020-09-28 09:51:52

数据中心

2018-07-18 10:07:51

数据中心机房维护

2012-12-16 15:26:49

超级计算机LinuxHPC

2024-02-23 14:35:49

数据中心冷却方法

2023-07-31 11:33:47

数据中心服务器

2013-08-02 11:28:19

澳大利亚超级计算机雷神

2012-07-18 09:02:13

HPC

2020-05-19 10:49:10

网络安全恶意软件技术

2023-03-06 15:09:41

数据中心

2009-02-13 12:32:48

国产Linux超级计算机千万亿次

2011-12-28 13:30:36

云计算Amazon超级计算机

2013-04-01 10:51:02

2011-11-17 13:28:35

云计算超级计算机

2021-07-14 08:00:00

数据中心技术运营商

2021-06-16 11:13:49

曙光
点赞
收藏

51CTO技术栈公众号