据推测,Google一个季度采购17-20万台服务器(基础设施投资不仅是建设数据中心和购买服务器),亚马逊和Facebook在6-8万台的级别。也就是说,每年都在建设数据中心,属于常态。建设数据中心,已经成为互联网巨头们的日常。
IDC在2013年第四季度的一个拥有超大规模(hyperscale)数据中心的公司统计中,将10万台服务器以上的划为Tier1,名单里包括Google、Microsoft、Amazon、Facebook、Yahoo、Baidu、Tencent、Alibaba、Akamai、Savvis、Rackspace、Softlayer/IBM。据美国数据中心专业网站DataCenterKnowledge的文章估算,法国的互联网服务提供商(ISP)OVH在2013年7月时拥有15万台服务器(IDC将其划在5-10万台区间的Tier2),而Intel公司在2011年8月即拥有7.5万台服务器。
现在,基本可以确认Google、微软和亚马逊是仅有的三家超巨“百万俱乐部”成员,Facebook可能是最接近的,但服务器总量何时超过50万台还不好说。
100万台服务器意味着什么?美国科技网站ExtremeTech有一个简单的估算:
假设服务器的平均成本为1000美元(现在要界定怎么算“1台”服务器不那么容易,实际价格很可能更高,此处从简,下同),100万台服务器的购置成本就是10亿美元;
每台服务器的功率大约200W,假设冷却、配电损耗、路由器等消耗50W,总功率就是250MW(兆瓦),年耗电量为2.19TWh,也即20多亿度电,相当于近20万美国家庭的平均用电量(按11280kWh每年计算)——仅以人口而论,大于中等规模的城市。
有不同来源的数据表明:2011年数据中心能源消耗占到了美国电网总量的2%;目前数据中心的能耗已经超过了全球能源使用量的1.3%。
我们前一章介绍数据中心规模时,列出的都是面积,这样看起来比较直观。但在美国市场上,数据中心的价格很早就按照供电能力(MW)来计算,因为仅仅能够放下服务器的是仓库,有足够的电力供应才能让服务器发挥作用。现代数据中心每兆瓦大约1000万美元,250MW就是25亿美元。
35亿美元,Google一个季度在基础设施上的投资而已,对Facebook也“只”需要两年。
一个大型数据中心能容纳5-10万台服务器(相应地,供电能力可达25MW或更高),这意味着至少需要10-20个数据中心设施(单体),全球分布是必须的。譬如,2013年6月初,风力发电开发商O2(已更名为OX2)获得在瑞典北部Maevaara建设72MW风力发电厂的规划许可,使用高效能3MW风力发电机,Google立即承诺购买该风力发电厂未来10年的全部产能,以满足其芬兰数据中心使用再生能源的需求。
Google在欧洲的三个数据中心之一,位于芬兰南部海岸之滨Hamina,源自其2009年收购的一个退役的造纸厂,照片中的水罐以前就用于造纸流程。为什么要把这个建于1950年代的造纸厂改造成现代化的数据中心?因为这个造纸厂不仅有巨大的建筑(有点像北京的酒仙桥,仅此而已),还有完备的海水隧道,可以用天然的冷海水解决数据中心的散热需求,与风力发电相得益彰。
据推测,Google一个季度采购17-20万台服务器(基础设施投资不仅是建设数据中心和购买服务器),亚马逊和Facebook在6-8万台的级别。也就是说,每年都在建设数据中心,属于常态。
建设数据中心,已经成为互联网巨头们的日常。
有规模,有资金,有持续性,这是在内部设立数据中心专业团队的充分条件;
节约成本、自主可控,有时还有保密的需求,这是在内部设立数据中心专业团队的必要条件。
Google芬兰Hamina数据中心的团队在芬兰湾享受冰上垂钓的乐趣。
数据中心(包括服务器,此处不区分)团队掌控设计、采购、供应链的关键环节,数据中心建设施工、服务器生产制造都可以交给合作伙伴(如ODM)。这里面很重要的一个工作,就是定制。
规模,即有足够大的量,是定制的充分必要条件。
对这百十万台服务器的拥有者来说,必须考虑如何省钱,也就是降低TCO(TotalCostofOwnership,总体拥有成本)。TCO包括CAPEX(CapitalExpenditure,资本支出)和OPEX(OperationalExpenditure,运营支出),可以简要的理解为购置成本和运维成本。
数据中心建设和服务器购置成本,属于CAPEX;用电和维护成本,属于OPEX。
从服务器的购置成本来看,有足够的量当然可以享受大客户价,要再压低价格,就得采取“偷工减料”、“化零为整”或“化整为零”等手段。
偷工减料,杜绝浪费
“偷工减料”是指去掉自己不需要的功能。戴尔(Dell)、惠普(HP)和以前的IBM(Systemx)这些传统意义上的服务器OEM(OriginalEquipmentManufacturer,原始设备制造商),面对的是数以万计的客户,每个客户采购的量不大(与10万台的规模相比),需求却千差万别。所以,IBM、HP、Dell等大厂的服务器(特别是机架式)是为大多数应用场景设计的,虽然不同系列各有侧重(譬如1U计算密集型,2U有存储型),但仍然相对均衡,以通用性为优先考量,难以满足特定用户的需求,因为要有量来分摊成本。
偏偏互联网巨头既有特定需求,又有量来支撑,可以要求供应商去掉自己用不到的功能,增加自己需要的功能。当然,从简化供应链和库存管理的角度,他们也需要考虑(在自家环境中的)通用性,以减少需要维护的SKU(下一章会看到,Facebook的服务器配置就那么六七种),但这个范围已经窄了很多。
1999年Google采购“软木板”服务器合同的第1-2页,注意手写的注释。
如果是与应用无关的部件,那便能省则省。因为在他们的环境中用不着的部件,哪怕只有1美元,乘以万就是不小的数字。不要说土豪们一年花在数据中心上好几十个亿,就不在乎几十万了。回想第二章Google的早期案例,公司的CEO和副总裁在1000多台服务器的订单上都特别注明不要网线插头的保护套,现在把VGA、USB等大规模运维环境下用不到的功能和接口都去掉,实属正常。
更明显的是服务器的上盖和前面板。传统的(机架式)服务器,拥有完整的外壳,自然也包括顶盖(TopCover),因为要考虑到服务器不在机架上,或者上方没有其他设备(传统数据中心机架放不满是常态,特别在中国)的使用场景,这样顶盖就必不可少,发挥形成密闭风道、防止外物侵入等作用。
超大规模互联网数据中心则不然,机架配满是常态(数据中心***啊),这时上面的服务器就部分充当了“顶盖”的作用,顶盖可有可无。取消顶盖的话,既省钱,又便于维护,可谓一举两得。
Google在俄勒冈州达勒斯(Dalles,Oregon)的数据中心里,DeniseHarwood正诊断一个过热的CPU,可以看到这些服务器都没有传统机架式服务器的顶盖和前面板,机柜也没有门,既降低硬件成本,又方便通风和维护。
前面板则起着支撑接口、驱动器等作用,某些品牌(如Dell)还会有选配的保护罩,放置Logo,兼具上锁功能。不过这些在大规模互联网数据中心都派不上用场,徒具其表而已,偏偏美观、卖相基本不在他们的考虑范围之内,讲的是功能性为先。不设面板,正面基本处于敞开状态,便于前端维护,通风效果也更好。用Facebook常说的话,叫“vanityfree”(无浪费,或者,“告别虚荣”?)。
戴尔PowerEdgeR730服务器的前面板护罩,新增iDRACQuickSync功能,用手机上安装的OpenManageMobile软件,通过NFC配置iDRAC的IP地址、访问故障记录、改变网络设置,便于传统企业用户维护。而对前面板都不要的互联网数据中心来说,反而是虚掷金钱。
如果说1999年Urs等人设计的那批“服务器”还透着浓浓的山寨感,不设前面板(顶盖看情况)早已是Google和Facebook的标准做法:省钱、利于通风、便于维护,一举三得。