在经济学上,有一个千古不易的致富秘诀,那就是“开源节流”。但是,能在“开其源”的同时做到“结其流”,却实属不易。节约成本对于任何行业、企业甚至个人都是一个永恒的话题。
严峻的数据中心运维挑战
随着智能手机、平板电脑等互联网接入设备的爆炸性增长以及人们对社交、游戏、视频娱乐等等互联网应用需求的日益增长,互联网行业在近些年得到了迅猛的发展。但是这样的发展不仅意味着支出成本的飞涨,也对在背后支撑这些服务的数据中心提出了更加苛刻的需求。
针对服务器的支出情况,搜狐公司技术副总裁周霖先生分享到:“近些年,搜狐的服务器采购成本基本是持平的,甚至还有小幅度的下降。但是从服务器管理和维护的成本来看,近几年却是以倍数的形式增长,主要原因来自于服务器数量的增多与管理的复杂度的增加。与此同时,能耗与冷却的成本也拥有几倍的增长,这一现象,在拥有大规模x86服务器的互联网公司更加明显,也迫使我们使用新的方法去应对数据中心运维带来的严峻挑战。”
给搜狐数据中心带来的运维挑战主要来自几个方面:首先,是数据和计算需求快速增长所带来的服务器数量的增长;其次是像游戏等时效性业务的高峰和低谷,造成的能源和计算资源的浪费;同时,还有租用IDC带来的机架和数据中心功耗的约束,管理多厂家设备多地域设备的复杂环境等等。此外,人力资源的短缺和调配困难也随之而来。
智能数据中心的“四个现代化”
严峻的挑战下,搜狐针对传统数据中心运维挑战提出了Smart IDC的解决方案,通过平台化、数据化、流程化、可视化这“四个现代化”,来实现智能化数据中心的管理。针对“四个现代化”周霖进一步解释道:“所谓四个现代化,即从服务器本身入手,以点及线,以线及面,由收集到的设备和人员数据指引,形成可视化的展现,并加以流程化,约束运维人员行为,保障系统可信度。”
这一解决方案,可以通过多个层面针对传统数据中心存在的问题进行优化,帮助降低整体成本:
- 提高资源效率和管理水平
- 帮助运维人员对不同任务中设备资源使用情况进行管控
- 依据温度事件差异化散热需求
- 根据运行负载的实际功耗规划机架
- 设备功耗限定相同功耗性能最大化环境事件触发SLA保障的最长时间
- 通过标准的命令来管理所有兼容服务器
从管理角度来看,搜狐的Smart IDC 平台拥有“四个面向”:涉及到服务器位置跟踪、配置信息、设备备件的面向设备信息的管理;面向硬件与系统设备管理的状态;通过温度分布图、机架功耗统计、备件使用跟踪和警报系统实现的面向监控信息数据的管理以及面向策略指引的管理。搜狐通过将这些状态在系统内做到流程化的管控。“数据中心每个要素,比如我们讲的风、火、水、电,每个要素对IDC运维的保障都是有紧密相关性的,比如某台服务器的温度突然过高,在临近空调的位置上温度一定会有几度的提升,这个时候在我的平台上利用传感器立刻可以发现这个问题,会优先以邮件和短信形式通知运营人员,并得到准确的定位。”搜狐研发中心高级主管、搜狐-英特尔联合实验室主管彭毅先生说,“搜狐在此之前,业务的负载情况无法清晰地交付给运维部门,没有详细的数据,就无法对数据中心进行优化。搜狐会通过这个平台关注所有服务器设备运行的负载,让运维部门更加了解数据中心负载情况和业务需求,增强服务器运维的可计划性。”
所谓面向策略指引,即从直接可以得到的系统、硬件、资产以及流程信息中,利用平台分析系统得出一些可辅助计划和决策的结论。比如负载指标可以指引设备选型情况,还有数据中心剩余资源的情况,配件失效的特性以及服务人员上门维护的优化调度等等。“前三个面向得到的是显性的数据价值,而隐性数据这部分会多纬度的进行资源的展现、数据分析、策略指引,虽然是隐性的数据价值,实际Smart IDC最大价值就是在于这个隐性的价值。”周霖补充道。
为了让平台更加成熟可靠,搜狐同时制定了一套自学习系统。受监控设备将为平台提供监控数据信息,通过分析这些信息制订相应的策略之后,再把这个策略规范化、流程化,纳入搜狐的平台,巩固平台可靠性,并且一直通过这个流转。一旦受管理设备信息发生了变化,后续的指引也会发生变化,会制订成新具有适应性的流程和规范,巩固平台。这个循环时间越长,价值越高。
通用技术成就的智能
搜狐采用了很多通用的技术手段实现其Smart IDC平台,例如通过IPMI(智能平台管理接口)这一底层硬件接口,尽可能地通过这个接口采集信息数据,还有系统内的磁盘的信息的获取、温度传感器等等。
目前,服务器都会有自己专属的管理器进行检测和管控,但是复杂的数据中心构成依然将运维难度大大提高了。 “对此,搜狐有了更加高效的对策,”彭毅介绍到,“考虑到目前数据中心内的服务器来自不同厂商,但又都是以x86架构为主,我们整个平台的目标就是去掉不同OEM的差异化,所以我们这一基于软硬件的解决方案可以针对来自所有厂商x86服务器,替代了一对一优化数据中心的传统方式,显著提升了管理效率。”
搜狐利用的IPMI这个硬件底层的通信协议,通过服务器底层BMC把数据提取出来,这和传统的监控截然不同。“我们寻找到了一个最大限度、在各个不同OEM产品最通用的方式,去做整个平台化的监控和管理。”IMPI(智能平台管理接口)是一种开放标准的硬件管理接口规格,定义了嵌入式管理子系统进行通信的特定方法。该规格由英特尔在1998年提出,并在2004年发布IPMI 2.0规格。各厂商的设备在一些功能控制上差异很大,搜狐在此下了很大功夫。“借助搜狐-英特尔技术创新实验室的共同努力,英特尔提供的底层硬件技术的支持以及其对机房、数据中心的理解和经验帮助我们将底层硬件技术‘吃透’,使得现在任何平台、任何厂商、任何型号的服务器进来以后,只要用标准化命令就可以通过Smart IDC平台进行统一的管理。”
数据中心内的“大数据”
谈到RFID在数据中心中的部署使用,彭毅解释道: “RFID确实比较流行,最开始搜狐也准备在Smart IDC项目里给每台服务器都增加一个RFID标签,来跟踪服务器在IDC内的定位和流转情况。但是因为普通被动式的RFID会存在一个问题,读取器接触式的信息采集方法对大规模甚至不同地域的数据中心还是有难度,还是无法达到无人化值守,主动式的RFID解决方案成本较高,有一些违背我们的初衷。基于对自身系统的了解,在多的审视自己系统的之后有了新的认识,如果当时我们采用了RFID对我们系统也是一个制约,因为RFID一旦附属到服务器上,它的维护也是一个巨大的成本。比如标签出问题或者电池需要更换,都会对我们造成一个非常大的问题。随着项目的推进用了一些其他的方式,也是在大数据的背景下,用很多的微小的数据,做成一个集合以后替代一些附加上的传感器。我们利用很多采集数据相关性,比如端口数据的变化,来推算出这个服务器的定位,这个计算结果是很有意思的。”
引领行业前进的杰出贡献者
英特尔与搜狐长期保持良好的合作关系,双方有多年的深入合作,对新技术的研究及行业发展趋势有很大的认同。双方本着以技术探索为基础,以行业发展趋势为导向,以深入技术合作、挖掘前沿技术、推动关键技术发展、培养专业技术人才、热点难点技术探索及验证为目标,于2011共同成立了搜狐-英特尔技术创新实验室。
作为搜狐研发中心高级主管、搜狐-英特尔联合实验室主管,彭毅表示:“搜狐-英特尔联合实验室在互联网行业运转的很好,业界的联合实验室中可以成为一个典范。实验室研究的每一个项目都经过行业实际业务的需求、技术的紧迫性、产品的技术成熟程度、性价比与是否能够实际部署等等因素严格筛选和规划,双方共同投入资源,而非纸上谈兵的事。
联合实验室所做出的项目,首先是来自搜狐业务的需求,而且这个项目立项以后经过可实施性等多种因素的筛选,最后实施部署出来得到的收益,去向行业做推广。例如智能数据中心项目,就在2012年互联网峰会上已经披露了整个框架和技术的细节,引起整个行业很广泛的兴趣,包括跟搜狐同等规模的互联网公司,甚至比搜狐规模要大很多的互联网公司。
彭毅补充道:“首先,搜狐是一个对高新技术很感兴趣,也勇于尝试的公司。第二,我们认为英特尔是一个相对来说比较中立的公司,所以我们和英特尔合作的时候,相对来说可以互相坦诚,把需求和技术进行很好的整合找到一个共同研究的项目和方向。”
作为ODCA(开放数据中心联盟)的成员,搜狐在中国区的贡献也不可忽视,可以说是互联网行业首屈一指的贡献者。仅仅从这一个项目来看,就在ODCA中引申出一些类似碳足迹、数据中心温度、功耗控制等研究方向。这也是ODCA组织中国区在全球提出的屈指可数的几个项目之一。也是因此,今年的ODCA大会上,搜狐被授予联盟杰出贡献者一奖。