IT 领导者如何通过可观测性提高组织的主动性
通过挖掘性能数据来获取见解,是实现积极业务成果的关键因素
关键要点
- 可观测性有助于将 IT 组织从被动反应转变为主动出击
- 提前发现问题才能避免用户获得糟糕的体验
- 实时信号能够改进平均解决时间 (MTTR) 指标
在现代 IT 架构的通用语言中,“延迟”这一比喻完美诠释了业务反应迟缓的一种状态。如果组织的延迟已经造成问题,这表示运营团队总是落后一步,因为他们是在亡羊补牢,而非未雨绸缪。
不过,这种状况并非不能改变。
例如,总部位于加利福尼亚州旧金山的跨国金融服务公司富国银行就意识到,要衡量自家数不清的应用程序的性能,就得具备现代的可观测性,同时采用 APM 解决方案。Eric Chho 在富国银行担任工程副总裁,负责在该公司涉猎广泛的 IT 组织的许多应用程序团队中实现可观测性。Chho 表示:“具备衡量黄金信号 [即提高应用程序可用性以及减少延迟] 的能力,才能改善整体客户体验。”
Chho 还说道:“归根结底,就像那句名言‘数据就是新石油’所说的,我们已经完全拥有这种原材料,但加工的速度还不够快。这就是搜索的重要性所在。你的能力和速度取决于你对 [数据] 的探索。”
Elastic 的可观测性总经理 Sajai Krishnan 表示:“在整个环境、广大应用程序和多云基础架构堆栈中,以经济高效的方式实现可见性对于完成任务至关重要。高管们并不希望通过社交媒体了解到客户遇到的问题,他们希望主动解决潜在的问题点。”
要将 IT 运营从被动转变为主动,首先要确立一个可观测性解决方案,用于采集和分析传入的遥测数据。当检测到异常情况时,可观测性平台可以自动生成告警。通过挖掘这种性能数据流,有助于 IT 部门实现战略目标,例如缩短平均解决时间以及系统可用性达到 99.999%。主动监测有助于提前发现问题,防止它们影响到最终用户;对于采用 CDN 平台且拥有大量活跃用户的提供商而言,这一点尤其值得关注。
利用数据主动采取行动
告警管理是一个关键因素。
随着来自云、服务、网络、物联网和不同系统的性能数据流呈指数级不断增长,许多监测系统都无法相应地进行充分扩展。尽管许多性能监测工具在有些组织中可能行得通,但富国银行需要能够在不创建统一数据格式或将数据路由到孤立解决方案的情况下来分析数据。
Chho 说道:“众人参与是关键,并不是构建技术,然后期望人们去采用它就完事了。我们采用了跨团队合作的方式,目的是了解用例以及有价值的地方。” 为了达到可观测性使用变成自助服务的“转折点”,告警管理作为关键功能,有助于减少摩擦和提高采用率。“要怎么做才能让开发人员尽可能保持快速高效?”Chho 说这是他在管理富国银行的可观测性解决方案时经常思考的一个问题。Chho 补充道:“说白了,我想摆脱困境,以自动化的方式提供 [这些服务]。”
测试是组织主动采取行动的一种方式,测试的对象通常包括用户旅程,例如产品搜索、产品结账或基本登录。借助可观测性系统,组织能够找到问题的源头,例如以 B2B 软件即服务方式提供的性能不佳的应用程序(信用核查等)。提前发现问题以及接收即时通知,有助于防止因糟糕的客户体验导致收入减少。
运营团队也可以主动对一段时间内的性能数据进行趋势分析。通过自动执行检测 CRM 应用程序性能等流程,可免去运营团队手动查看仪表板报告的麻烦。如果应用程序无法满足服务级别的目标,运营团队可以借助可观测性快速确定问题的根源。
加快解决问题的速度
再以捷豹路虎举个例子,构建可观测性平台意味着要获取关键的产品生命周期管理数据以及创建告警,以让他们的产品线像捷豹 E-TYPE 经典跑车精雕细琢的优美线条一样流畅运转。
捷豹路虎高级项目经理 Andy Walker 表示:“可供我们的领导团队和工程师使用的数据的质量是影响我们车辆和生产线性能的一大关键因素。数据量非常大,而且还需要准确、完整和即时可用。”
捷豹路虎部署 Elastic 是为了报告制造和技术资产的效率和利用率,例如价值数亿美元的许可工具、包括数据存储在内的基础架构,以及制造设备。当检测到数据异常时,系统就会主动发送告警。
要实现主动式解决方案,需要实时了解系统中发生的情况。
Elastic 的 Krishnan 表示:“监测与可观测性之间的区别和血压监护仪与连接到云分析的穿戴式设备之间的区别没什么两样。使用实时分析功能,你可以针对大量数据提出问题。对于组织来说,可观测性解决方案需要能够随着增长速度经济实惠地进行扩展。”