理智的IT用户在决定上马一项系统工程时,通常都会遵循合理建设的原则,一不过度,二不盲从,一切从调研出发,一切靠实际说话。吉林大学在建设服务全校乃至全省的高性能计算(HPC)平台时,就是这样审慎决策,从而使投资回报率实现最大化的。
苦寒之地的东北有一个充满暖意的地名——长春。在这里,矗立着全国知名的高等学府、六校合一的综合性院校——吉林大学。作为基础学科建设的尖兵,培养高端人才的大本营,这所成长快、规模大的重点大学遇到的问题和发展困境,在教育行业中具有典型意义,解决高性能计算难题就是其中一例。
找准建设方向
越来越迫切的应用需求是吉林大学建设高性能计算中心的动力。该校学科门类齐全,尤其是化学、物理、数学、地学等学科在教学科研中对HPC的要求很高,同时,吉林大学还引进了不少‘千人计划’成员、长江学者等高级专业人才,他们进校工作后也先后提出HPC应用需求,要求自建小型数据中心。这种情况在很多高校,尤其是重点高校非常普遍。
经过综合考量,吉林大学决定打破分散建立低利用率的数据中心的模式,统一建立全校的高性能计算中心来满足教学科研需求,待发展壮大后还可以开放计算能力,直接服务于地方经济建设。计算机科学与技术学院被指定为这项工程的牵头单位。
高性能计算平台是基础设施工程,高性能计算中心的筹建得到了主管部门的重视。据吉林大学计算机科学与技术学院院长胡亮介绍,学校已与吉林省工业和信息化厅协商多次,就高性能中心建设及服务对象进行了实质性洽谈,“厅里明确表示支持,从今年开始持续拨款;吉林大学每年也会从‘985经费’中拨出专门款项,用于中心的持续建设。”
“学科建设是学校的命脉,重点学科里还有重大项目,这些都是高性能计算中心未来支持的重点。同时,该中心也将作为中国教育科研网格(ChinaGrid)的重要节点。”胡亮在介绍HPC服务教学科研时说,如何进行教育资源整合和共享,尤其是大型仪器设备的共享,现在提到国家层面的议程上了。吉林大学预计将开放学校综合学科资源,服务兄弟学校,以后一些特色教学,比如国家精品课程同样会放到这个平台上共享。
不仅服务于校内,吉林大学提出为校外提供计算能力的想法与政府部门的建议也十分一致,“吉林省有不少知名企业,比如一汽集团、吉化集团,它们也希望接受高性能计算服务。一汽的典型应用,比如汽车设计过程中的汽车碰撞模拟就是典型的大计算量任务,可能今后都要到吉林大学的计算平台上去运行。”胡亮说。
理顺建设思路
在前期规划时,吉林大学一方面到南京、合肥等地的高校去取经,吸收经验和教训,另一方面进行广泛的用户调研。该校计算机科学与技术学院会同校网络中心,共同走访校内HPC使用大户以及一汽集团等社会用户,收集调研意见。吉林大学网络中心副主任张宗升介绍说,他们画出了一张用户图谱,这样,与实际建设对接的用户需求就一目了然了。
浮点峰值计算能力作为最重要的指导性指标,就是从这张用户图谱中得出的。“目前我们投入了1300万元,每秒浮点运算能力是40万亿次,在2010年位于中国高校第一名,Top500榜单上排名第239名。”胡亮对获得的计算能力非常满意,他表示,吉林大学不会搞一些华丽外包装的事情,“排名其实都是比较虚的。满足用户需求才是最根本的出发点。包括分析HPC应用的主要特点,技术指标上尽可能考虑通用性,我们都进行了详细规划,综合考虑什么样的性能、怎样花最少钱来满足用户需求。”
当前流行的集群技术为高性能计算中心的灵活扩展提供了基础,因此,所谓“一步到位”的超前性被认为并不明智,吉林大学采取了按需扩展的建设思路。“我们这次投了1300万元,是不是可以再多一点儿呢?可能也投得出来,但根据发展需要,可能那样建设并不成功。如果建好的计算能力过于超前,最终需求只能用到一半儿,这就是一种浪费。浪费的资金在有需求时投入,回报率会高得多。张宗升坦言,这些是吸取来的教训,“某些院校的高性能中心已建了多年,但还没有完全正常使用,这更加促使我们审慎决策。”
在不同时期,吉林大学各院系建起的小型数据中心还有不下10家。目前,学校已经采购了一套商用调度软件,将把校内计算资源进行合理整合,在一个平台上提供计算服务。
选对合作伙伴
明确用户需求之后,吉林大学邀请了多家专业公司来校做技术交流,综合评价各种可行性技术,多次论证建设方案。胡亮认为这是一个开放的决策过程,“论证过程中,英特尔、浪潮、IBM等公司都和我们做了多次沟通,包括设备选型、资源配置,资源管理、调度等,最后才确定了建设方案。”
每个投标厂家都提供样机做测试,原厂工程师尽最大努力去优化系统。据参与测试的吉林大学高性能计算中心工程师吴旗介绍,当时要求指定的CPU和刀片数量,再对比各家的计算能力、耗电量和支持能力,学校教师也用实际应用软件进行了测试。在今年2月的招投标中,吉林大学最终确定了主计算节点CPU采用英特尔至强5650,硬件平台采用浪潮服务器。吴旗表示,作为HPC的核心,至强5650在性能和加速比上都表现出了明显优势,在能耗上也非常令人满意。
在计算节点中,吉林大学还部署了4台基于英特尔至强7550处理器的胖节点,这对于运行某些OpenMP版本的大型程序非常必要,极强的运算能力和大容量内存是提高运算效率的关键。“我校理化所使用胖节点最多,但他们自己拥有一个两层的数据中心,设备刚采购不久,存在一定重合,所以计算中心的胖节点没有部署太多,但之后还会继续增加胖节点的部署数量。”胡亮说。
设备安装部署完毕后,该校高性能计算中心就进入了试运行阶段,与此同时,该中心也开始努力挖掘起计算资源的潜力。胡亮表示,“英特尔有很好的技术和专家队伍,他们最了解自己产品的特性。已经有英特尔技术人员专门来做过技术报告,我们双方都表现出强烈的合作意愿,愿意共同挖掘计算中心的能力。”
到目前为止,该中心已经试运行了一个月左右,一直在逐步承接应用任务,“我们在学校先选几个示范性用户,然后让他们出一些用户报告。”据工程师吴旗介绍,目前计算中心还在进行调优,统一针对用户公认较好的软件版本来做优化,用户也需要一定时间来适应界面和环境,此后,计算中心还会针对重点用户的应用进行调优。“预计再过半个月左右,就到了收集用户反馈的时候了,他们的意见将决定着该中心服务的方向和质量改进。”胡亮表示,“我们不怕争抢机时,真要是抢得厉害,就说明我们的中心建设成功了,而且该继续向前走了。”
配图