当AI遇到容器,WOT大咖眼中的运维变革之路

原创
服务器 数据中心
2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开。来自全球企业的技术精英汇聚北京

  2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开。来自全球企业的技术精英汇聚北京,畅谈软件技术前沿,共同探索运维技术的新边界。而在本次大会上,除了众星云集的主论坛环节,12场分论坛更是各具特色,分别聚焦了时下最受关注的容器、AI、区块链、大数据、物联网等技术领域。

  通过让多个操作系统相互独立的共享一套硬件,企业开启了云时代。而容器技术的出现则可以让多个相互独立的runtime和应用组合共享一套操作系统资源。由此,企业应用的配置可以变得更灵活,硬件资源的利用率也会变得更高。作为一种直接提升企业数据中心运行效率的技术,容器技术收到追捧几乎是板上钉钉的事情。

  AI,不单单是赋予机器和程序智能,更是将人从简单重复劳动和决策中解放出来的最直接手段。借由半导体技术和软件算法的不断进化,AI利用机器的算力部分替代了人的脑力和体力,使人可以更专注于创新。毫不夸张的说,AI将是人类生产力跃升进入下一层级的关键技术之一。

  而当AI技术遇到了容器,运维将彻底摆脱密集型人力的堆积,进入一个更加自动化、更加高效的全新时代。而对于这种技术融合与碰撞,本次WOT峰会则举办了专门的分论坛给予探讨。

分论坛现场人头攒动

  在本场分论坛中,宜信技术研发中心研发总监张真、转转公司架构算法部负责人孙玄、新炬网络执行副总裁程永新以及阿里集团监控负责人程超等运维领域的前辈大咖现身说法,为与会者从不同维度及不同类型公司的视角阐释了当AI技术遇到容器之后,传统运维将会发生的转变。

  运维机器人之任务决策系统演进之路

  作为本次分论坛的开场演讲,宜信技术研发中心研发总监张真一开场便将话题锁定在了“运维机器人的决策系统设计思路”这一前沿话题之上。而这正是运维自动化程序效能和实际效果高低好坏的核心所在。

宜信技术研发中心研发总监张真发表演讲

  张真表示:“首先,在容器环境下的AI运维将主要分为三个阶段,即全维监控、全维关联和全维智能。而AI技术将会在第二和第三个阶段发挥其真正威力。在运维场景中,AI机器人将主要实现理解、异常检测、问题分析和执行计划等四大部分功能。”

  首先,机器人需要有一套与人类运维工程师交互的交互系统。而为了保持高效,这套系统应该是基于自然语言的。通过自然语言的理解以及与人类员工的多轮对话,AI机器人将可以在人类的意图与自身的能力之间建立起一套映射关系。同时,AI还应该理解企业的IT系统及现实世界。在理解这些信息以及人类员工的真实意图之后,AI机器人基于人类的意图开始对系统实施自动化的检测。

  在之后对IT系统的自动化检测当中,AI机器人将能够发现系统目前存在的问题并针对问题寻找其背后的原因,最终实现对症下药,制定并执行相关的解决计划。

  在这一过程中,AI机器人总体来看有两条设计思路可以遵循,即任务驱动和自主驱动。任务驱动的关键在于AI能够反映出背后决策者的意图;而自主驱动的关键则在于如何设计一套可生成执行计划的机制。总体来说,AI是技,而技的背后则是设计者的眼界与目的。

  转转如何打造AI工程架构体系

  运维一方面是解决系统运行中的各种问题并保持系统总体的可靠和高效,但在另外一个层面,运维则是要保持业务的持续运行和进化。从这个角度来理解,运维既是业务,运维进化既是业务进化。而在目前的AI大潮下,如何设计一套以人工智能算法为基础的业务自主演进架构体系就成为了业务运维进化的***方向。

转转公司的***架构师孙玄发表演讲

  作为转转公司的***架构师,孙玄表示:“在电商应用中,最核心的算法无非两类,排序和召回;电商平台的所有业务几乎都给予这两类应用的不同表现和组合。”

  就架构而言,在经历了基于人工权重的规则制定和逻辑回归模型之后,排序将向通用化、平台化和服务化方向进化。通过将一系列机器学习技术与实时数据分析技术相结合,转转在未来将会形成一套能够实现模型持续集成和复杂模型快速迭代系统架构。在这样一套架构上,任何***生成的模型都可以实现一键上线、快速迭代。而归根结底,这些进化都是基于算法的持续演进来实现的。搜索如此、排序如此、召回如此,AI及数据源的接入亦是如此。

  AIOps实践三板斧——从可视化、自动化到智能化

  回到运维问题的本身,无论是业务层面的运维还是架构层面的运维,其进化的核心方向都是智能化。而无论从哪个角度出发,“从数据的可视化到运维管理的自动化最终通过AI技术实现运维的智能化”都是放之四海皆准的发展规律。

新炬网络副总裁程永新Fabian

  对此,新炬网络副总裁程永新表示:“可视化是运维所有进化的基础,因为可视化的核心便是要做到运维数据的度量和规范。而一旦将这些数据变得规范和可度量,企业便能够进一步分析这些数据,从中找出解决运维问题的方法和途径。而这种从数据中寻找方法和途径的思路则可以称之为自动化。通过建立平台化的规范,企业可以更快、更可靠的开展架构的自动化运维。在此之后,经过对架构及业务工作经验和演进思路的不断沉淀积累,并辅以人工智能算法进行管理,企业最终可以实现系统架构运维的智能化。

  面对资源管理、应用容量、网络安全、应用体验、故障诊断、容灾备份、智能巡检、安全审计等企业运维过程中需要面对的八大场景,这套从可视化到自动化再到智能化的演进思路均适用。

  当然,在目前人工智能仍属于“***能”范畴的现状下,程永新也表示:目前的人工智能技术发展水平更适合来处理低频率发生的复杂问题,通过人工智能技术来预测可能的问题原因及解决方案。而面对高频或低频发生的各类简单问题,普通的自动化运维系统其实是***的解决方案。

  而如果复杂的问题已高频度发生,那么可能整套架构在设计或其他方面存在着大问题,需要以更复杂、更彻底的手段才能实现治标治本的效果。

  超大规模的秒级监控平台

  作为中国独有的超大规模平台,阿里巴巴的一举一动都会吸引全球IT人的目光。广泛的业务、海量的交易以及平台本身自带的金融属性都让阿里巴巴的IT系统成为当今全球***进IT架构的代表。而在运维中不得不谈的监控部分,阿里巴巴也有显然也有一套自己的经验和方法论。

  对此,阿里巴巴集团研发效能事业部程超表示:“最初,阿里采用Nagios+Cacti架构来满足整套平台的监控需求。但随着业务量的增长,这种组合已经无法满足监控的性能需求。于是,阿里开始自己构建代号为SunFire的监控平台。”

  目前,阿里自研的监控系统服务于超过90个租户,由超过11000个应用组成,整套系统由超过4000台物理机和虚拟机来承载。这样的一套系统每分钟可以处理2TB的日志文件,在日常的运营中,监控系统可以实现对整套业务系统的秒级响应。

  面向未来,阿里正在开发全方位全链路的新监控系统。这套系统能够帮助业务和开发人员自主管理全部系统、硬件和平台,让每一个阿里的开发人员都成为全栈式的人才,同时也让业务与系统能够做更好的对接。

  AI、容器与运维

  在企业数字化转型如火如荼的当下,中国企业的IT系统现状已经变得更加复杂。在一些企业还停留在初级信息化的水平时,很多企业已经开始了对AI、容器等***前沿技术的探索与应用。而听过了各位专家对于AI、容器和运维的百家百言,其实总结下来,运维升级和演进的思路虽然大致类似,但具体技术和实现路径却各不相同。因地制宜,从先行者身上寻找灵感并结合自身发展现状,寻找符合自身需求的方法和路径才是切实提升运维效率和效果的***奥义。

  以上内容是51CTO记者根据WOT2018全球软件与运维技术峰会的《容器下的AIOps》分论坛演讲内容整理,更多关于WOT的内容请关注51cto.com。

 

责任编辑:zhangcha 来源: 51CTO
相关推荐

2014-04-14 10:21:15

开发运维DevOps

2016-07-14 16:09:09

运维

2012-08-31 14:00:40

IT运维

2009-07-01 09:54:00

运维管理网络监控变革

2016-06-03 10:43:54

微店移动优化

2015-08-18 20:33:28

DevOpsAPMSaaS

2017-11-10 12:43:43

整洁代码开发程序员

2019-08-15 09:45:54

软件技术Docker

2017-07-07 16:11:40

2019-10-22 13:54:19

人工智能日志运维

2014-07-16 09:56:20

运维运营商

2018-12-18 10:59:25

WOTAI机器学习

2014-06-20 18:26:45

WOT2014自动化运维

2023-06-27 13:39:58

AI运维企业

2019-08-15 10:41:33

云时代运维容器

2018-03-27 16:23:53

运维AI智能

2021-09-01 09:10:03

双碳运营商

2009-09-22 12:34:54

运维管理主动

2018-06-30 17:08:40

运维新挑战Tech Neo

2017-04-14 13:54:41

WOT2017架构运维
点赞
收藏

51CTO技术栈公众号