保持企业关键应用程序正常运行是企业的绝对必要条件。据调研机构Gartner、IDC和其他公司估计,IT停机成本平均每分钟约为4200英镑。简单的基础设施故障可能花费大约75,000英镑。而面向公众的关键应用程序的失败成本更高,每小时为378,000英镑到755,000英镑。当其故障影响大规模的全球物流运行,并给客户带来广泛的不便时损失更为惨重。例如,去年五月,英国航空公司的运营系统出现故障,其损失迅速上涨。英国航空公司估计损失了1.0199亿美元(7708万英镑)的硬性成本,其中包括对滞留乘客的机票退款,以及对声誉的难以估量的损害。根据当时的股票估值,英国航空公司的母公司IAG公司随后损失了2.24亿美元(1.7亿英镑)。
预防此类灾难,或在发生此类灾难时有效和快速地进行干预,这意味着为开发人员和运营人员(DevOps)提供IT基础设施、网络和应用程序的可视性。现代IT监控解决方案以多种方式提供这种可视性,包括:
- 问题:摄取和发现。人工配置数百或数千台主机的监控是一个耗时且可能容易出错的过程。运营商有时无法全面了解其权限范围内的所有主机、应用程序和业务服务。解决方案:IT监控系统越来越能够自动化或推断信息,配置管理数据库(CMDB)、部署工具、云计算API和其他信息的信息源。这有助于运营商识别和标记实体,可视化依赖关系,并在整个混合(即内部部署和基于云计算)数据中心内快速准确地配置监控。可以使用窗口管理器(WMI)、SNMP网络发现和其他技术进行发现。
- 问题:概要状态显示。数据中心运营商需要“单一控制窗”,可以汇总受到监控的系统的大量状态信息,让他们快速发现问题并研究以确定根本原因。解决方案:采用成熟的IT监控平台提供可折叠的大纲样式摘要显示或计划报告,允许操作人员隐藏或显示有关受监视主机和系统的有意义的信息子集。彩色编码弹出窗口引起人们对问题的关注。可点击标签可以快速访问各个服务检查、图表、原始事件日志和故障排除工具的详细信息。
- 问题:仪表板。由于拥有太多的监控数据,密集度太高,可能难以使用。运营商需要能够快速可视化关键指标和状态信息。解决方案:有价值的IT监控系统允许企业使用图形小部件创建可自定义的仪表板,隔离特定主机、指标和KPI。对准备好的面板的只读访问权限可以分发给关键利益相关者,了解应用程序状态,服务等级协议(SLA)合规性等。
- 问题:业务服务监控。IT团队和DevOps需要能够可视化提供关键业务服务所涉及的所有基础设施元素和系统的状态。解决方案:业务服务监控(BSM)是一种增强的仪表板功能,可让运营商创建交互式视图复杂应用程序“堆栈”(例如,负载平衡器、Web /应用程序服务器、数据库集群、网络设备和支持典型、扩展、高可用性、分层应用程序的其他元素)。它非常适合那些对此负责的开发人员、产品经理和其他人来了解他们拥有的应用程序的状态,并使他们能够在系统状态开始降低时提供有效的帮助。
- 问题:报告。实时状态可视化并不能说明整个故事。主动管理和规划还意味着能够查看系统范围的状态、资源消耗趋势和其他信息。解决方案:综合报告使运营商能够跟踪合规性。它提供了对服务水平协议和目标、计划维护和升级、跟踪成本、横向扩展预算,以及许多其他用途的深入了解。
- 问题:警告。严重问题可能需要操作人员全天候注意。解决方案:几乎所有IT监控解决方案都提供通过手机、电子邮件和短信提醒。许多还直接与通话管理系统和服务集成。在正确的时间正确地将警报路由到正确的人员是非常重要的。企业监控平台要么具备此功能,要么与经过验证的解决方案集成,以确保合适的人员在合适的时间获得洞察力。
- 问题:移动性。将运营商绑定到网络运营中心(NOC)和办公室影响士气和生产力。解决方案:***的IT监控解决方案提供有用的移动应用程序,使运营商能够查看状态,关键业务服务和其他仪表板;并响应来自任何地方的警报和通知。
- 问题:通知和出站集成:一旦状态信息从监控系统聚合,问题是如何起源、跟踪、分配、协作和解决的?解决方案:***监控平台提供与流行企业越来越广泛的集成和中小企业问题跟踪、服务台和IT流程管理解决方案。在企业监控平台中寻找与Slack、ServiceNow、Puppet、Ansible等工具集成。询问可扩展性,例如“其平台能否轻松扩展其功能,以便与未来的解决方案集成?”
***信号
正确监控意味着不要想象每一个可能的信号。在理想情况下,控制使可见信号的最小子集产生***可操作的洞察力:收集的每个指标都伴随着相关的硬成本和软成本。随着IT资产规模和复杂性的增长,与收集、处理、存储、分析、显示、查询和报告指标相关的开销都会增加。这最终会影响应用程序、网络、监视系统性能。
过度的可见性也给运营商带来了严重的认知负担。太多的复合体,很少使用或与操作无关的指标可以伪装基本信号(警报),从而减慢有效的事件响应。如果缺乏对可见信号的选择性,以及如何评估和引起对它们的关注可能很快导致过度警报。这可能促使人们对警报感到疲劳和倦怠,并最终导致真正发生事件时被人忽略。
调查非关键事件所耗费的操作人员时间对于更重要和更有影响力的工作而言是浪费时间。简单地说:获得可见性错误会付出更多的支出,并且可能阻碍创新。
***洞察力
工作人员需要丰富的知识和经验来识别必要和充分的信号,以便***地监控给定类型的基础设施,应用程序或业务服务。如果没有适当的工具、人员不足、时间紧张的IT人员通常很难提供这种级别的保证。
***IT监控解决方案通过在模块或插件中打包***度量标准集来弥补知识差距,从而可以快速、自信地设置***实践兼容监控。例如使用插件,操作员可以立即实施监控MySQL数据库的运行状况、性能和资源消耗所需的20到40次服务检查。
开发人员使用不太成熟的应用程序性能监视(APM)系统和开源工具链来构建软件,并在测试和生产环境中可视化应用程序状态。应用程序性能监视(APM)解决方案对于对应用程序细节知之甚少的操作人员来说并不是很有帮助,他们的工作是保持众多复杂的应用程序顺利运行。
与IT运营监控不同,应用程序性能监视(APM)系统是多种多样的,并且符合各种标准。例如,有许多开源服务器、驱动程序和其他工具,旨在从Proproheus(一种流行的指标可视化和数据库系统)消耗HAproxy(一种流行的开源代理服务器/负载平衡器)中提取指标。
观测
监控和可见性处理“已知未知数”,这众所周知的性能特征/指标和应用程序和组件的已知硬故障模式。同时,可观察性更集中,现在用于讨论包含“未知未知数”的可见性超集。特别是,这指的是理解和管理动态、自扩展、弹性、分布式应用程序行为的挑战。基本上,可见性知道可能发生的一组可预测问题,而可观察性使人们能够洞察出发生了什么,这需要进一步探究。
企业的监控解决方案正在努力提供插件和模块,使容器编排和相关系统的内部工作更加可见。与此同时,***的市场参与者正在评估一系列策略,用于从分布式和容器化应用中提取一些重要的信号,使它们能够被观察到。