相信做运维的童鞋都会有这样的经历,“参加过7*24小时的值班,抗过机器,敲过代码,偶尔还得玩两下数据。”在一些小公司中,运维童鞋不敢说是全才,但至少是哪里有坑就能够填哪里。但是,在大公司中运维工作的分类就比较细,例如专注于高反复度工作的操作运维、专注于基础运维工作的业务运维、专注于运维工作项目管理及需求规划设计的规划运维、专注于运维工具开发的开发运维等等。
大公司中的运维工作不仅面临着分工的纷繁复杂,同时还要经受着峰值流量的冲击。那么,大公司的运维工作都是如何管理的呢?本文将以BAT为例,为你揭开大型互联网公司运维思想的冰山一角。
腾讯:服务化、标准化、自动化和产品化
当运维团队只有几个人的时候,大家的工作状态可能是“个人自扫门前雪”,哪里需要救火就去支援哪里,但是当团队人数增加到成百上千人时,如果还是这样的工作状态,那可能就会有很大的问题。所以腾讯的运维服务有一个“四化建设”,即服务化、标准化、自动化和产品化。
如何理解这“四化”呢?服务化指的是服务于业务,倾向于解决产品的痛点;标准化是自动化的基础,因为业务架构之间的差异各不相同,所以标准化的粒度和维度也需要进行调节;自动化,一定要打通企业内的各个信息孤岛,只有实现了全流程的自动化才是真正的自动化;产品化,运维平台也要重视用户交互,要以产品的理念来建设。
百度:书同文,车同轨,行同伦
从网上公开的信息来看,百度的运维经历了四个阶段,即脚本工具、基础运维平台、开放运维平台和智能运维平台,运维的核心目标也从之前的提升效果过渡到现在的如何解放运维自身的效率。
在SACC 2017大会上,来自百度的讲师曾透露,“百度指导运维的三个思想分别是书同文、车同轨和行同伦。”如何理解呢?书同文指的是一致运维“语言”,如运维应用、服务、机房、集群的定义;车同轨指的是一致运维“方法”,如扩缩容执行、流量切换执行;行同伦指的是一致运维“模式,如故障诊断策略、弹性伸缩策略、流量调度策略。
百度AIOps技术栈
阿里:普适的“大中台和小前台”
似乎每家公司运维的“打怪升级”路线都很相似,阿里也经历了脚本化、工具化、DevOps、自动化再到智能化的过程。在DTCC 2018大会中,阿里技术专家徐小飞曾将AIOps无人运维和无人驾驶进行了类比,二者都可以分为六个阶段,并且每个对应的阶段都有相同之处。其中AIOps无人运维的六个阶段分别是人肉运维、脚本/工具化运维、平台型运维DevOps、数据化运维DataOps、高度智能运维AIOps和完全智能运维AIOps。
从无人驾驶看AIOps无人运维
了解阿里的人应该都听过,“大中台和小前台”这个名词,这是阿里上上下下所有技术相关的部门都奉行的技术战略,运维也不例外。
阿里大数据运维
阿里有个大数据运维解决方案叫Tesla,该解决方案贯穿了阿里整个大数据体系,负责从基础设施到基础平台到存储计算平台的所有产品的运维支撑。运维垂直体系也是一个SPI的分层结构,运维IaaS层负责的是提供面向运维管理的基础操作能力;运维PaaS层提供面向各运维领域的功能服务以及运维数据源与控制服务;运维SaaS层提供面向场景化的自动智能运维应用。