如今大数据、云计算技术的发展已经自身疲惫了。然而跨界竞争和技术融合迫使我们不断换血和补充能量来适应一次次变革。在人工智能、虚拟现实、物联网等技术热潮过后,能预测到的下一个技术热点会是什么,高性能计算(HPC)?是的,HPC应该再适合不过了。
回顾历史,传统HPC主要聚焦在仿真、物理化学、生命科学、渲染、勘探和气象等六大场景,上层HPC集群化软件、生态和解决方案还是比较固定。
根据HPC应用的目标市场可分为HPC商业市场和HPC科研市场。但随着大数据、云计算和技术发展和行业融合,综合技术和行业趋势,HPC行业划分方法也发生了变化,目前主要分为传统HPC(以上述的六大场景为主),HPDA高性能数据分析、HPC Anywhere和HyperScale四大类。
其中,在HPC Anywhere中实现了HPC和云的结合,例如Panzura、Ctera、Avere和Nasumi等集群文件网关存储厂商,他们提供一个高速的本地分布式NAS系统,用于对接AWS、Azure等这样的公有云对象存储和一些低速的NAS产品,通过这些网关提供了一个缓冲层,可以设置策略让数据在网关和其它存储之间流动,通过NAS或Object存储直接实现与集群网关,甚至公有云连接和数据流动。
随着闪存技术的成熟,HPC的传统的3层技术架构(即计算节点内存、并行文件系统和归档存储)也发生了变化。在HPC系统中,并行文件系统(pFS)对HPC性能影响***,在某种意义上决定整个HPC存储性能。传统HPC架构应对超大规模HPC集群计算节点同时Checking Point需求时,显得力不从心,那就需要在pFS之上多加一层高速大容量(相对于Memory)的Cache(Burst Buffer)。
我个人认为Burst Buffer技术可能是一个技术过度产品,类似改善系统性能的Hybird存储,不过,在目前SSD还相当贵的状况下,Burst Buffer却能够很好的匹配超大型HPC场景***性能需求。在性能和容量空间比在20MB/TB至200MB/TB之间,Burst Buffer可以说是非常适合的(Burst Buffer提供的SSD承载80%以上的性能,容量由传统存储HDD提供),通过简单的配置调整,不但不会出现容量或性能超配,而且还能发挥出SSD的价值。
回首HPC并行文件系统,***,主流的有Lustre、GPFS、BeeGFS,当然Glustre、Ceph和企业NAS也会在HPC中出现,但还不是主流。
在HPC行业,有个业界一直被推崇的做法可以借鉴,那就是开源生态和的重要性。从Linux,OpenStack,Ceph到Lustre和BeeGFS等。他们的成功说明开放的魅力强大,参与者越多产品才会越稳定,客户才会认同。拥抱开源,基于自己的优势和理解定制化,走出一条自己的路。DDN、Seagate还有很多HPC方案供应商都是这样从开源和合作中占据主要的HPC市场份额。
谈到HPC不可避免的会谈到NAS或pFS,那么HPC为什么就一定要pFS呢?
因为计算软件,配置数据需要在各个计算节点共享,需要多并发访问,计算的临时文件、中间、结果文件需要集中处理。
在计算集群形成初期,系统中并没有复杂的存储系统存在,甚至没有统一存储的概念,那时每台计算节点把自己所计算出的数据先暂时写到自己的本地硬盘上(Cache),最终由主节点进行所有数据的回收,至主节点所挂载的相对大的空间中(其实这就是后来HPC存储的雏形),再进行后续处理(分析、共享、可视化、备份与恢复)。
本地存储引入的问题:计算任务在计算集群中被分割为若干个子任务。计算过程中,某个计算节点的输入数据可能存放在另外的节点上,引入的问题。
1、各节点的数据会二次进出本地硬盘,各节点间的数据传输也会造成多余的网络风暴,这种做法无疑会造成计算效率的下降;
2、应用程序代码编写过程中,无法预计所要数据在哪个节点上,都造成麻烦与效率的低下。
因此后续的程序编写中,会让所有的节点都认到一块区域,将所有的临时性数据和最终数据都写到这里,即统一命名空间,因为所有计算节点都可以看到这块同一个名字的数据存储区域,表现在计算节点的OS中即为看到同一个名字的目录。
HPC应用软件,例如Paradigm、3Ds Max等,在配置计算模型的存储指针时,会发现要求指向同一个区域,即统一的存储空间,而且有许多软件在这个参数的设置上是不能修改的。
某计算节点自己的中间数据,可能会存放在自己内部的存储上。如果使用SAN存储,就必须使用SAN共享软件(如StoreNext),保证数据读写的一致性。
DDN是在Burst Buffer上发力最猛的HPC解决方案提供商,但是Burst Buffer目前还没有一统天下(未来可能全闪存会一统HPC天下),Panasas和Seagate是两家专注HPC行业的专业存储厂商,他们在Burst Buffer上没有发力,但是他们在NL_SAS磁盘和HPC专有存储上却一直不懈努力。
Panasas的技术从我一开始借助HPC就吸引着我,ActiveStor 8、9、11、12采用数据控制分离,磁盘内置控制器可以把HDD磁盘性能发挥***,遗憾的是不知为何,最近几年Panasas一直淡出在我们视野。
至于Seagate,更是把密度和HDD结合的非常***的典范,ClusterStor可以在5U空间提供84个磁盘容量和16GB/s性能,从***的宣传来看,性能已经翻番了。他们虽没有采用SSD,但成了完全可以玩转HPC的例子。
面对未来高性能、大带宽应用和业务,网络有哪些要求呢?目前主流的就是100GE以太网、Omni-Path和InfiniBand。
站在市场角度,我更希望Mellanox的InfiniBand和Intel的Omni-Path技术都能找到适合发展的市场空间,分别发挥出自己不同的优势,希望Intel收购了Qlogic的InfiniBand业务后又基于True Scale Fabric另辟新径是正确选择。
HPC系统能力通过哪些基准来衡量呢?Top500和Green500的排名是衡量HPC系统地位的重要指标。
中国“神威-太湖之光”超级计算机(无锡)和“天河二号”超算系统(广州)多年来蝉联Top500榜首,虽然成绩优异,但其在Green500的排名还有很大的提供空间。在未来迎接HPDA、云化和HPC HyperScale趋势,只有计算性能和绿色节能兼备才能更好的把握云计算和大数据下HPC的主动权和话语权。
关于HPC系统能力BenchMark排名,除了TOP500、Green500和HPCG之外,还有Graph500排名和Green Graph 500排名等,Green Graph 500使用与Green500相同的性能指标,但它是根据每瓦特性能排名,即采用Green 500测试模型测试但配合Top500(HPL)使用每瓦特性能排序。
随着时间的推移,应用程序更复杂计算的需求已变得越来越普遍,TOP500创始人认为Top500列表采用的Linpack基准性能已经过时,大家也意识到单看CPU性能的弊端,开始使用HPCG(The High Performance Conjugate Gradients)性能来全面衡量超算性能。
内容很丰富,但文章篇幅有限,分析内容到此为止。今天也是把HPC行业趋势、产品和技术的分析梳理成“高性能计算(HPC)技术、方案和行业全面解析”电子书,电子书通过有偿的方式提供给真正需要的小伙伴,点击原文链接获取资料。