编者按:在不久前闭幕的ISC12国际大学生超级计算机竞赛中,由浪潮集团组织支持的清华大学、国防科学技术大学参赛队分别勇夺竞赛总冠军和最高计算性能奖,优异成绩震惊国际超算界。作为此次国内外竞赛设备、技术的负责人,浪潮高性能计算技术专家王渭巍为我们深度剖析“最高计算性能奖”获得者国防科学技术大学的比赛策略与方案。
在2012年6月20日于德国汉堡闭幕的ISC12国际大学生超级计算竞赛中,国防科学技术大学代表队采用CPU-GPU异构架构计算集群方案,力挫美国科罗拉多大学、纽约州立大学石溪分校、德国卡尔斯鲁厄理工学院和清华大学参赛队,勇夺“最高计算性能奖”。国防科学技术大学也是唯一一支采用CPU-GPU异构架构搭建计算集群的参赛队,双精度计算峰值5.5T左右,计算核心数量达到3168个(含GPU计算核心)。
在上一篇的稿件里,我已介绍过ISC12国际大学生超级计算机竞赛的参赛队实力:美国科罗拉多大学连续5年参加了美国的SC国际大学生超级计算机竞赛,并曾在2009夺得过Linpack冠军;纽约州立大学石溪分校从2007年就开始参加SC大学生超级计算机竞赛,曾获得过2009年SC比赛的冠军;德国卡尔斯鲁厄理工学院(KIT)计算机系在德国排名第一,号称“德国MIT”,他们的超级计算机教学和科研能力独步欧洲;国防科学技术大学设有系统的超级计算机教学和比赛的体系、机制,拥有良好的人才梯队和比赛经验,2011年他们曾在西雅图的SC超级计算机竞赛中仅以0.5分之差屈居亚军;清华大学则是国内的顶尖学府,设有与浪潮共建的超算中心,有丰富的超级计算机教学、应用研究沉淀。
在这次竞赛中,所有参赛队都想为自己的祖国、母校赢得荣誉,尤其是德国东道主德国卡尔斯鲁厄理工学院,他们更是抱着必胜的信心,欲将ISC12国际大学生超级计算机竞赛所有奖项一览怀中。他们曾在赛前公布了他们在实验室里面能测到0.97GFlops/W性能。而在比赛当天,他们以3000W内实现13个双路CPU节点集群系统亮相时,令其他对手大吃一惊。按照每瓦0.97GFlops性能计算,德国卡尔斯鲁厄理工学院计算峰值是2.995万亿次,另外科罗拉多大学也达到了2.4万亿次,而清华大学是2.3万亿次,国防科学技术大学的CPU计算峰值为1.5万亿次,GPU4万亿次。单纯从CPU性能比,中国的清华大学、国防科学技术大学跟德国卡尔斯鲁厄理工学院有相当大的差距。媒体、超算业界人士都认为德国卡尔斯鲁厄理工学院会赢的比赛的冠军,并且开出了相关的赔率:
那么,国防科学技术大学是怎样扭转乾坤的呢?
在2011年参加美国西雅图SC11的国际大学生超算竞赛时,国防科学技术大学就采用了CPU-GPU异构计算集群方案,但当时异构方案庞大的代码移植工作量,给他们造成了较大困扰。而在本次ISC12国际大学生超级计算机竞赛中,除了常规试题外,还设有两个神秘应用,考虑到竞赛组委会倾向于在传统CPU上组织竞赛命题,且在比赛现场做异构代码移植工作,会极大挤占运行其他应用的时间,无疑是不合算的。因此,国防科学技术大学代表队赛前就拟定此次竞赛策略是在最高计算峰值和计算通用性上取得平衡,冲击最高计算性能奖,同时在应用计算部分保持相当竞争力。
而在具体的竞赛战术设计中,国防科学技术大学参赛队同学仔细考虑和讨论,为了达成既得到最高性能,又兼顾代码运行兼容性的目的,他们决定采用继续采用CPU-GPU异构架构搭建比赛集群,冲击计算性能最高奖:在浪潮最新发布的NF5280M3节点服务器上采取CPU+GPU异构计算形式,构建异构集群,其中浪潮NF5280M3配置了两颗最新的E5-2650 CPU、8条8G DDR3内存、一块SAS硬盘(浪潮NF5280M3是基于通用目的的高性能服务器,针对高性能计算领域日益重要的异构计算,特意设计了空间和风道,可以支持两块GPU的异构计算),在此基础上,每台服务器上搭配一块双精度计算峰值在665GFlops 的NVIDIA Fermi M2090(而不是两块)。为了有效解决散热和系统功耗,他们现场又对风道做了改善,六套搭载GPU卡的浪潮NF5280M3在3000W的竞赛总功率限制下,运行HPL时系统功耗峰值控制在2950W左右;而在具体的集群系统环境中,国防科学技术大学采用RHEL 6.1、CUDA4.0和针对FERMI的HPL测试包,赛前在他们实验室机房同样配置的集群最高可以得到接近2.8T的实测峰值,但由于比赛现场的散热条件有限,选手们反复运行只能跑到2.65T左右,但这样也足以笑傲群雄,力压第二名德国卡尔斯鲁厄理工学院 2.3T的峰值,成功拿到了最高计算性能奖。
我个人认为清华大学和国防科学技术大学参赛队在国际赛场上取得好成绩与他们准备充分、团队配合、具备拼搏精神和天赋以及浪潮提供高品质的硬件竞赛平台密切相关。如国家863重点专项专家组组长钱德沛教授在首届中国大学生超级计算机竞赛开幕式上所讲:“我要感谢浪潮所起的作用。回顾几十年来,浪潮参与了国家高性能计算的工作,同时浪潮集团与科研人员密切合作提高了技术水平,掌握了高超技术实力。今天浪潮有实力来组织支持这样一个竞赛表明浪潮已经跻身于世界IT企业。”
作为国内高性能计算的领军企业,浪潮秉承应用、创新的发展理念,依托高效能服务器与存储技术国家重点实验室、Inspur-Intel中国并行计算联合实验室以及与业内顶尖的厂商、行业应用专家等合作,不仅持续推进中国超级计算机产品与技术的发展,也通过组织大学生超级计算机竞赛这样的活动,推进中国超级计算机人才和应用的发展进程。在参加本次竞赛的同学们为国家、母校赢得荣誉的同时,我也为我所在的浪潮感到骄傲。