今天展示的可能是大家最为推崇的一种对深度学习的构建。DeepLearning11搭载10个NVIDIA GeForce GTX 1080 Ti 11GB GPU,是Mellanox的 Infiniband系列,外形尺寸是4.5U。该系统与DeepLearning10之间有重要的区别,主要是添加了8个GTX 1080 Ti显卡。 DeepLearning11 采用single-root的设计 ,这种设计已经在深度学习领域中流行起来了。
之前已经有了许多深度学习的构建,很多机器已经投入使用。其中有一些较小的版本,包括之前发布的DeepLearning01和DeepLearning02。它们仅仅是个开端,但DeepLearning11完全不同。现在这个架构已经被世界前十的超大规模深度学习企业所使用。
DeepLearning11:组件
如果我们要求使用NVIDIA可能会被告知需要购买特斯拉(Tesla)或Quadro卡。但NVIDIA特别要求服务器原始设备制造商(OEM)不要在服务器中使用他们的GTX卡。当然,这仅仅意味着经销商在交付客户之前安装这些卡。
该系统采用的是超微的 SYS-4028GR-TR2,它是市场上主流的高GPU密度系统之一。TR2非常重要,因为它是机箱的single root 版本,不同于DeepLearning10的-TR dual root 系统。
DeepLearning11 GTX 1080 Ti Same CPU
与DeepLearning10的构建相似,DeepLearning11具有“隆起”,使系统总体积达到4.5U。你可以从服务器“Humping”趋势在数据中心的部分了解到更多。它使我们能够在自己的系统中也使用NVIDIA GeForce GTX卡。
超微4028GR-TR/ -TR2
我们正在使用Mellanox ConnectX-3 Pro VPI适配器,它既支持40GbE(主实验室网络)也支持56Gbps的 Infiniband(深度学习网络)。尽管已经在使用它,但是使用FDR Infiniband与RDMA在目前来说还是十分受欢迎的。1GbE或是10GbE的网络根本不能足够快地供给这些机器。于是我们在在实验室中安装了一个Intel Omni-Path交换机,这将是该实验室的首个100Gbps结构。
Mellanox ConnectX-3 Pro
在CPU和RAM方面,我们使用了2个Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是这些系统的常见芯片,它们是最低端的主流处理器,支持9.6GT / s QPI的速度。而我们正在使用的是英特尔至强E5-2628L V4 CPU,因为单根设计会赋予另一个重要的优势,将不再只是GPU间的QPI流量。虽然有可能可以使用单个GPU来为系统供电,但是我们仍然使用两种更高的RAM容量——16GB的RDIMM因为比较便宜。这些系统可以承受高达24个DDR4的LRDIMM从而获得大量的内存容量。
对于那些使用NVIDIA nccl库的深度学习者来说,常见的PCIe是非常重要的。这也是许多深入学习的构建不会转换到更高的PCIe数量的原因,它通常是更高的延迟或是更受限制的设计,如AMD EPYC与Infinity Fabric。
系统成本
在成本明细方面,如果使用英特尔E5-2650 V4芯片,这可能是什么样子:
与AWS g2.16大型实例类型相比,总价约16,500美元的投资回收期在90天以内。以下是相关的托管费用。
将DeepLearning11 的10个GPU示例与DeepRearning10的8个GPU进行比较,你可以看到,在整体系统成本方面,大约25%的性能损失较小:
正如人们所想象的那样,添加更多的gpu意味着系统其余部分的开销将有可能超过这些gpu。因此,如果你的应用程序可扩展性比较好,每个系统可能得到10个gpu。
DeepLearning11:环境因素
我们的系统有四个psu,这对于10个 GPU的配置是必要的。为了测试这个,我们让系统运行一个巨大的模型几天,看看有多少功耗被使用。以下是是10个GPU服务器的能耗,看起来就像是PDU运行Tensorflow GAN的工作负载的情况:
从上图可以看到,大约2600W确实是不错。根据模型在训练中的位置,这台机器在3.0 - 3.2kw范围内,持续功率消耗更高,却没有触及到gpu的功率限制。
这个峰值在深度学习领域上,几个星期内使用不同的问题和框架,它的高峰值仍不足4kW。使用4kW作为基础,就可以很容易地计算出这种机器的托管成本。
正如你所看到的,12个月以来,托管成本方面开始缩小硬件成本。但其实,使用的是实际的数据中心实验室的托管费用。将上述与DeepLearning10的8个gpu进行比较,你可以看到添加500W额外计算的影响:
添加额外的gpu与系统成本相比,会增加运营成本,这是与DeepLearning10相比的状况。随后几年,托管成本将会远远超过硬件成本。
DeepLearning11:性能影响
本文最重要的是想要展示从这个新系统中获得了多少性能。1600美元的系统和1.6万美元的系统之间存在很大的差异,因此我们预计其影响也会类似。采集了我们的样本Tensorflow,生成Adversarial Network(GAN)图像训练测试用例,并在单卡上运行,然后进入10个GPU系统,用每天的训练周期来表达结果。这是一个很好的说明如何在系统的购买价格中增加1400美元或更多的例子。
写在最后
正如人们所想象的那样,DeepLearning10和DeepLearning11消耗了大量的功耗。仅仅这两个服务器的平均功率就超过5kW,峰值更高。这对主机有很大的影响,因为在许多机架中增加0.5RU并不重要。大多数的机架其实不能提供25kW +的电源力和冷却能力以满足GPU服务器的需求。
最终,我们希望在实验室中拥有一个重要的Single Root系统,而DeepLearning11及其10个NVIDIA GTX 1080 Ti 11GB GPU则具备这一点。由于我们提倡首先扩大GPU的大小,从每台机器的GPU数量到多台机器,DeepLearning11既是一个伟大的顶级单机,同时也是基于设计可以扩展到多台机器的平台。