水对于数据中心来讲并不陌生,谷歌的数据中心多采用冷冻水系统,如图1中谷歌数据中心的大型空调系统。水冷的核心优势是输送水比输送空气成本更低,而且水的比热容比空气大得多。虽然数据中心进水可能是场噩梦,但是对于处理器数量日益增加的高效运转的数据中心服务器而言,通过水冷方式给服务器处理器降温可能是最行之有效的一种散热方式。
谷歌的设计思想是尽可能让水通过各种方式到达机架,这并不是工业界***次这么做,但谷歌做得几近***。谷歌数据中心高级总监Joe Kava表示:“一旦水冷管泄露,后果非常严重。我们的设计经过了多年考验,万无一失。”此外,虽然水系统的运行效率较高,但采用水系统的大规模数据中心其管路和设备会非常复杂,因此其工艺质量也会大大影响系统可靠性和建设进度,而我们知道谷歌***的数据中心建设时间只有约12个月到16个月左右的时间,比传统机房2到3年的建设时间大大缩短,那么谷歌是如何在保证系统可靠性的基础上,还能实现数据中心的快速建设呢?这里通过其数据中心空调系统创新的建设方式,来管窥一豹,了解其数据中心的建设思路吧。
谷歌空调系统建设的三大特点
谷歌各种数据中心的建设方法,如电力和冷却系统等模块化等方式。在一些实际应用中,可以大幅缩短数据中心从开始建造到绝大部分完成并投入使用的冗长建设周期。谷歌创新的空调系统建设方案总结下来有三个特点,***个是在机房建设初期采用租赁设备的模式尽快让机房投入生产,然后同时建设剩余的***性固定部分,等机房全部建成后,租赁的设备退还给设备租赁公司;第二个是初期采用风冷冷水机组或者混合式冷却塔等设备,无需冗长审批申请流程,快速让机房投入生产,然后同时滚动建设;第三个是模块化的空调子系统可以不断地增加并投入使用,且建设过程中的增加空调子模块不会对已经投产的部分系统有较大影响,这几个特点大大加快了谷歌数据中心建设进程。
在机房建设初期采用租赁设备的模式尽快让机房投入生产
比如在数据中心建设的初期采用租赁设备的模式,如冷水机组、临时变电站或开关投切设备等可用以租赁的方式快速投入数据中心的最初运营。随着建设的逐步深入以及IT负载不断增加,***性安装的或者自购的长周期设备逐步安装起来并投入使用。当***固定安装或者自购的设备能够承担全部负载时候,租赁的设备再逐步退场并返回给租赁公司。
前面描述的模型和技术可以有很多优点。例如,数据中心可以以更快的速度投入生产,而传统方式的数据中心各个子系统互相关联,需要全部设备采购、审批、建设、系统联合测试验证完成后才能投入使用,这种模式下大型设备如变电站、柴发和制冷系统等经常会导致项目延期。因为IT负荷不会一下子就上满,在建设初始阶段中采用稍微小规模或者小容量的设备,且比如采用租赁而不是自行采购模式,这样设备获得以及测试验证会更为容易开展,确保数据中心可以尽快投入应用,还可以减少资金的压力以及或者得到更高的能效等。
初期采用风冷冷水机组或者混合式冷却塔等设备
假定另外一个应用场景,在市政供水以及排污许可等申请和建设完成之前,数据中心的初始负载由租赁的风冷冷水机组来散热,数据中心工作在有限的容量范围内。这个阶段,业主可以开展长周期设备的采购并现场安装冷却塔,以及其他市政供水建设和排污申请等。等到这些申请许可被授予并允许投入使用后,这些已完成安装的冷却塔,开始使用市政水来散热并承担起全部的负载。然后前期租赁的风冷式冷水机组可能被移除退租,或可能仍保留被用来提供额外的冷却需求,比如高温天气冷却塔冷容量不够,或者某些冷却塔需要维修等。
或者还可以采用混合式冷却塔等类似的方法,在数据中心建设初期采用闭式非蒸发工况运行,直到有充足的市政水供应并完成排污许可等,然后再切换到制冷量更高的开式蒸发工况运行。如图2中初始阶段,三通阀1025切到冷却塔内闭式盘管散热,而排污审批通过后可切换到顶部的开式蒸发工况运行。相比较于传统串行的冗长建设过程,前面的这些方法可以让数据中心以更快地速度投入使用,特别是当数据中心需要大量的用水,审批建设流程将会是漫长和耗费精力的。
空调主管路先行建设及空调子系统的模块化安装调试
在另一个例子中,数据中心的大型冷却系统被模块化分区,使得部分数据中心冷却模块可以先行建设,经过测试验证先投入使用,然后其他冷却模块也按此方式逐个建设并验证,直至全部模块建设完成。数据中心内的每个制冷分区,比如一些冷却塔、换热器和关联水泵等,与特定区域内的服务器机柜组成一个制冷区域,由一个制冷分区来负责。这些制冷分区按业务增长需求以及经济性,尽量以一个合适的颗粒度模型被设计和建设,彼此之间尽量少耦合,避免和已经投产的其他制冷分区产生影响,然后逐个建设并测试验证,按需投入使用。
基于前面的这些分析和思路,数据中心内的一根或者多根主系统管路被先行建设,这些主管路被阀门等分成多个独立部分,每个部分之间可以被阀门等互相隔离。然后在此主系统管路上建设***组冷却塔和冷水机组等,并测试验证该组冷却塔和冷水机组,同时建设并接入***批服务器业务,再与空调系统联调并投入生产。然后再建设第二组冷却塔和冷水机组等,并继续测试验证第二组空调子系统,由于有相互隔离,第二组的测试验证工作很大程度上不会影响到已投产的***组空调子系统。然后采用同样的办法在主系统管路上不断扩容这些空调子系统。每组空调子系统都是模块化设计,包括一个或者多个冷却塔以及换热器,相互之间可隔离,并且测试验证和投入运行基本不会影响到其它子系统。通常,***组空调子系统会采用租赁设备的模式快速投入运行,而第二组之后的空调子系统由自购设备的模式***性安装调试投入使用,直到第N+1个空调子系统测试验证后投入使用。***,***组空调系统退出或者留下来用于提供备用冷量。
谷歌的目标是使用尽可能少的能源来为谷歌的产品提供动力,因此能不用机械制冷的冷水机组就尽量不用,而谷歌的高效冷却塔系统就是在这方面所做的努力的典型,在北欧的几个数据中心都实现了无冷水机组机房的设计和应用。但在一些夏季比较炎热的地区,谷歌还准备了备用冷水机组,以防温度或湿度过高导致谷歌无法只依靠冷却塔来排热。谷歌只在万不得已的时候才使用这些装置,因为冷机的效率没有使用外部空气进行散热的效率高。
#p#
上文介绍了谷歌数据中心空调系统的三大特点,现在我们看看其具体实施过程。图4是谷歌数据中心建设早期的平面图,冷却模块108a通过接入管段106和104连接到***性空调主水管上,隔离阀114用于从主管上隔离接入管段106和104,这样在建设初期冷冻水被控制在阀门114的下半部,而其他部分仍保持管路干燥不影响其他部分的施工。同时,截止阀或者平衡阀,比如112和110也被用来作为隔离作用,用于安装连接机房水平支管等。
图5是图4数据中心建设平面图的下一个阶段,此时数据中心已经在图4的基础上又进一步建设了一段时间,机房内已经搭建起来了如116的整排机柜,机柜118以背靠背的方式建设,而119作为散热空调置于两排机柜间或者机柜顶部,将被机柜118内的服务器加热后的空气制冷后重新送回到机房内。
图5中可以清楚看到建设中新增的冷冻水水平支管120,并在此120环路的上方准备安装机柜和空调,且环管120可能会安装在架空地板下来减少漏水或者爆管的风险。同样在这个图中还可以看到冷却模块108b、108c和108d也已经被建设好,每个冷却模块对应一定排数的服务器机柜,而这些机柜排数则根据每个冷却模块的制冷容量来配置,比如每个冷却模块可以覆盖2-3排的机柜排。这里只是示意,现实中谷歌不会采用这种机柜排和水平支管平行的方式,因为任何一个水平支管故障都可能影响一整排机柜,实际做法后面会进一步介绍。等整个机房完成建设后,较早建设的冷却模块108a可以作为整个数据中心的备用冷机,或者说当满负载下的冷却模块需求是N,则108a可以作为N+1的备份来提高系统可靠性。整个机房在满负荷底下,即便出现某台冷却模块故障或者需要停电检修,仍可以保证整个机房有足够冷量满足散热需求,甚至可以满足满负荷外额外超出的负载尖峰。
每个冷却模块都是模块化建设,包含冷却塔、换热器、阀门系统、水泵和配电单元等。而分布式储冷系统,比如盐水罐或者储水塔也会被建设,当负载较低时候存储冷量,而在负荷高峰的时候也可以释放冷量,用于负载的消峰填谷。如图5的这个案例,4个冷却模块已经建设好,而两排的空调及服务器已经投入使用,以及第三排机柜准备建设。下一阶段将会建设120管路上方的机柜以及空调,然后再建设其他新的空调冷却模块以及机柜和置顶空调,直至整个机房完成建设,图6是包含了储冷罐和混合塔的实际冷却模块详细照片。
图7是某个数据中心建设的早期平面图,其中冷却模块148是租赁来的小容量冷却模块,而145则是***性安装的大型自购冷却模块。154是主供水管,而156是主回水管,截至阀144允许冷却模块145从整个空调系统中独立开来。类似的,租赁的小冷却模块148也通过接头150连接到整个空调系统中,并可由截至阀146从空调系统中独立开来。通常租赁的冷却模块148要比自购***性冷却模块145的尺寸和制冷容量都要小一些,比如方便采用标准卡车方便拖运到现场,通过软接头等方式快速连接到空调主管路中提供额外的冷量,也容易从主系统中拆卸和退租。
数据中心建设的初期,租赁来的小冷却模块148投入建设并调试,同时还在机房内建设好机柜及置顶空调等,然后再和冷却模块148一起经过测试验证环节,快速投入生产。由于冷却模块148的制冷能力有限,以及随着IT负载不断增加的上架量,***性的冷却模块145就需要被建设,但此时截至阀144仍处于关闭状态,不接到整个系统中。当145***性冷却模块完成建设,则通过144截至阀连接到整个系统中,并经过测试验证后投入使用。随着负载的不断增加,新的IT机柜以及新的冷却模块不断被建设测试验证投入使用。
除了空调系统外,供电系统也可以采用类似的租赁方式快速满足早期的供电需求,比如图7左下角的临时租赁供电模块152用于数据中心早期的负荷,随着负载的不断增加,***型的供电基础设施也被不断建设并测试验证投入使用。
图8是前面提到数据中心的侧视图,服务器机柜230安装在架空地板上,地板下则安装着整排机柜对应的水平供水接头218和回水接头220,而机柜底下的水平支管226上则鱼骨状衍生出很多的置顶空调软管228连接到每个置顶盘管内,用于每个hot huts微模块的散热。而冷却模块204则由冷却塔206、水泵208、板换216、以及冷机210等构成。冷机210可以为风冷冷水机组,在冷却塔被允许工作,或者排污申请被批准之前,靠210风冷冷水机组来散热,通常其制冷容量会比冷却塔206的散热量要小,而且能源效率也比冷却塔要差。
#p#
前面我们介绍了谷歌数据中心空调系统的特点与建设过程,图9(a)是谷歌空调系统初始阶段的建设流程图,最开始采用租赁的低效率小容量的风冷冷水机组,同时建设***性冷却塔并申请供电及排污的许可,这些都完成后负载再切换到更大制冷能力的***性冷却塔内。图9(b)是租赁设备建设退出流程图,介绍临时性租赁设备模式迁移到***性设备工作模式的整个过程。采用租赁的方式可以让数据中心快速获得设备,等***性冷却设备建设完成后,租赁设备可以被退出还给设备租赁公司,或者也有可能会被留在现场,用于在高温天气或者主设备需要检修维护时候的额外供冷路由。
图10是数据中心按顺序建设和测试验证的流程图,数据中心园区公共主骨干管路预先建设,并由主管路阀门分割成多个子段,每个子段预留好相应的接头以及支管阀门。然后数据中心的制冷模块逐个被建设,并且至少留有一个作为冗余。
接着,当有新增业务需求的时候,可以继续同步开展新增空调散热子系统的建设,以及机房内IT负载以及制冷末端的建设,两者建设完成后再分别单独测试验证,然后再接入主系统并联调通过。新增空调散热子系统的容量和IT负载的规模可以合适匹配,比如一个空调散热子系统根据不同的散热能力可以覆盖一排或者多排的IT机柜排。然后不断重复前面的子业务系统不断增加,直至整个机房完成全部的建设。
类似的,数据中心园区供电系统的核心配电部分也预先建好,这些需要给整个或者大半个数据中心用的公共供电基础设施部分需要被先行建设并测试验证通过,来尽量避免后续逐个增加的模块化单元对主系统的影响。由于采用了谷歌独有的服务器UPS技术,其配电系统非常简单,也和空调系统一样采用模块化按需建设。从图11谷歌的某个IDC平面布局就可以非常清楚地看到这个特点,南电北水模块化一一对应,不断按需扩容。除此之外就是门口附近的一些简单的功能间,用于现场办公和设备进出等,总体机房空间利用率很高。