一种复杂的网络结构设计方法有望帮助大型数据中心的运营人员应对硬件故障,并且让他们得以购买不大昂贵的IT设备。许多公司试图把多个数据中心连接起来时,一些网络问题会随之出现;中国国防科技大学一名攻读博士学位的中国学生试图解决这些问题。
这种方法试图为由多套1000至2000台服务器模块组成的数据中心确保拥有可靠的网络性能——这些数据中心相互连接起来,组成所谓的“特大数据中心”。哪怕万一出现多个硬件故障,这种方法也让分布式应用软件可以保持性能。
集装箱式数据中心可能会带来网络问题,于是一名中国研究人员在着手解决这些问题。
在一篇题为《SCautz:一种面向模块化数据中心的容错网络架构》的论文中,首席研究员Feng Huang撰文道,由于云计算提供商看到自己管理的IT系统数量不断增加,于是求助于这种方法:把设备塞入到货运集装箱中,然后把这些集装箱连接起来。虽然谷歌和亚马逊网络服务公司等许多云计算公司采用了这种方法,但是Huang认为,集装箱之间的网络性能一旦受到限制,都会给数据中心设施带来巨大的影响。
Huang撰文道:“作为模块化数据中心(MDC)的关键部件,模块化数据中心网络(MDCN)不完整的结构应该尽力保持网络性能。最重要的问题是,MDCN的性能必须比MDC的计算和存储部件更平稳地退化,以便不至于成为致命的薄弱环节,从而使集装箱的总体性能提前低于阈值标准。”
细述SCautz方法
为了处理这个问题,Huang及其团队想出了一种新的网络结构设计方法,名为“SCautz”。
SCautz让服务器可以执行网络交换机的许多典型功能,让实际的交换机专门负责集装箱之间的数据传输。这种方法采用了与软件定义网络(SDN)这个新兴领域一样的理念。像最近被VMware收购的Nicira这些公司涉足这个新兴领域,试图把网络部分迁离专有硬件,改而转移到基本服务器上。
SCautz方法假设:运营人员使用价格低廉的大众化现成交换机——这种精简版交换机并没有各大网络公司生产的许多额外的软硬件。
研究团队在模拟时将SCautz与微软牵头研发的为模拟化数据中心设计的试验型网络架构(名为BCube)进行了比较。想了解BCube,请访问以下链接http://research.microsoft.com/pubs/81063/comm136-guo.pdf。
SCautz在测试中的表现几乎与BCube一样好,但是它所需要的交换机数量少得多,因而降低了数据中心网络的总体成本。
此外,在10%到20%的网络硬件出现故障的情况下,SCautz网络的网络吞吐量下降了6.91%到3.74%;相比之下,BCube的网络吞吐量却下降了15.3%到25.23%。
因而,SCautz能够足够巧妙地避开出现故障的硬件、进行路由传送,因而网络性能的下降幅度小于出现故障的硬件所占比例数。因而,SCautz网络适应硬件故障的能力更强,为数据中心运营人员在应对硬件危机时提供了更大的灵活性。
Huang撰文道,研究的下一个阶段就是,把多只基于SCautz的集装箱连接起来,设计一种集装箱之间的网络。Huang目前正在中国国防科技大学攻读博士学位。
【本文乃51CTO独家译稿,转载请标明出处】