天河2号已经报道了很多次了,但关于这部全球第一的超级计算机,很多细节还是一团迷雾,特别是升级了“ARCH”联网系统的内部细节,16000个节点是怎么通过这个ARCH堆到一起的?希望本文能稍微满足一下大家的好奇心。
不管怎么样,国家有天河2可以用,还是很值得高兴的。
首先是天河2的主板,根据最早爆料者Jack Dongarra的说法,国防科技大学做了一些“一体化改进”。
在天河2里,两个ARCH网络接口和两枚Ivy Bridge-EP版的Xeon E5节点(每个节点有两个CPU插座),被做在了一块板子上(虽然他们理论上它们之间没有什么关系)。这样一个节点上,还有一枚Xeon Phi协处理器供左半边的节点共享,右侧有5枚Xeon Phi。左右两半电器上是分开的,完全可以分开维护。
所谓的Arch-2网络界面,通过PCI-Express 2.0接口连接着搭载着Xeon E5的主板,可惜,PCIe 2.0的带宽比PCIe 3.0版本的要少一半(也许Arch-3会升级到PCIe 3.0界面,或者NUDT的实验室白板上已经有原型涂鸦了)。每个节点上都有一个Arch-2网络界面;每节点上的3个Xeon Phi协处理器,通过PCIe 3.0界面和CPU通讯。嗯,没错Xeon Phi与CPU的谈话速度,要快过CPU之间的……不确定这种不平衡的设置对天河二君的性能有什么影响。
来来来,看一眼天河二君的霸气外露的网口背板。
天河的Arch-2网络背板双面都有接口,而且有不同的速率。Arch-2可以跑10Gb/s,或者14Gb/s。其中一个闪亮的RSW交换口在主板的背面,连接机架上节点组互相之间的通讯。(不太明白这个RSW是啥意思……给诸君赔不是)
让人看不懂的是,有几组RSW交换界面是旋转90度插在一起的——不过,PDF上就是这么画的。
8个一组的RSW交换刀片连接着4个刀片机(一共8个ARCH-2接口),看起来其他的4个几口是用来连接576口的主干交换机的,实现与主干连接的硬件层叫做LSW刀片机,看上去就是这个样子:
Arch-2由13个576口的怪兽交换机组成,看来有用到不少的LSW交换机。这些交换机用的是国防大学自己的开发的光纤技术和自有知识产权的传输协议。和所有的超级计算机一样,布线看上去整齐如麻,特别是你要把16000个节点连起来的时候。
In China, presumably they call a tangle of cables noodles, not spaghetti(不是我不敬业,这句我吐槽不来……)
我真想改行卖光纤网线啊。
一些天河2的技术细节在此(PDF):
http://www.netlib.org/utk/people/JackDongarra/PAPERS/tianhe-2-dongarra-report.pdf
补充侦查一侧,对于超算用户来讲,好像很实惠啊……