持续整合
在很短时间内,便可完成大量技术和应用数据的整合工作。
集中管理日志和指标文件
能够集中存储来自不同应用层的信息,以便分析所有端到端活动,并监测不同环境中事务的运行状况,进而全面了解各职能部门的动态。
事件响应能力得到改善
通过使用定向分析和应用运营人员仪表板,团队能够更好地检测异常情况并充分利用自动警报。
公司概览
BPCE 集团是法国第二大银行集团,也是欧洲十大银行集团之一。
该集团拥有 106,500 名员工,服务于 3,100 万客户(其中有 900 万客户为会员),为法国超过 20% 的经济活动提供融资支持。BPCE 集团向客户提供全面的产品和服务,包括储蓄、短期投资、现金、融资、保险和长期投资解决方案。作为一家合作性质的公司,该集团严格恪守合作理念,帮助客户开展项目,并致力于与他们建立持久的客户关系。
安全、可扩展的多业务部门服务平台需要具有强大的处理和分析能力
BPCE Infogérance et Technologies(BPCE-IT,BPCE 托管服务和技术)成立于 2015 年,隶属于 BPCE 集团 IT 分公司,负责提供共享服务。经过一系列业务重组后,该公司现为一家欧盟经济利益集团 (EIG),致力于整合基础架构并进行集中采购,从而优化成本并改善集团整个 IT 生产团队的服务质量。该公司还为用户和信息系统提供增值基础架构服务(即时聊天、视频会议等)。
BPCE-IT 将六个 IT 发布机构的 IT 管理活动集中到一起,这些机构分别是:IT-CE、i-BP、BPCE SA(IT 部门)、Natixis(融资、付款和证券)、Palatine 和 Crédit Coopératif。
BPCE 集团制定了 “Innov 2020”(创新 2020)战略计划,该计划希望通过集中管理投资和资源来改善整体运营效率;对于 IT 领域,该计划明确定义了两个目标:
- 确保大规模、最充分地利用数据进行性能和功能分析(既包括基础架构,也包括应用程序);
- 改善向合作伙伴(发布机构,以及诸如 Natixis 等内部客户)提供的服务,以便他们能够提高灵活性、敏捷性和性能。
为了实现这些富有挑战性的目标,BPCE-IT 需要处理与基础架构和应用程序(之前此信息来源的利用率一直都很低)相关的大量日志文件。该公司之所以选择 Elastic Stack,是因为 Elastic Stack 能够实时处理和分析大量的各类数据。此外,通过 Security 功能,该公司能够对集群中存储的数据授予不同的访问权限。这使得 BPCE-IT 能够确保数据安全,并优化基础架构和管理费用。
为了优化实时处理海量数据的性能,我们实施了基于 Elastic Stack 的标准架构。通过此系统,我们能够对活动进行跨职能分析并尽早检测到事件,从而预测并更好地预防服务中断或恶化,所以说,此系统大大提高了团队的响应能力。
BPCE 集团采用 Elastic 的过程
BPCE-IT 架构和安全部门
共有两个团队在集团内部推动使用 Elastic Stack。这两个团队最初将 Elastic Stack 用于一个开源用例,并评估是否可将此解决方案作为 BPCE-IT 所提供大规模服务的一个关键组成部分。
- 架构和创新部门,此部门负责管理基础架构,以及创建有关 IT 解决方案的转型、试验和实施的路线图。
- 信息系统安全部门,此部门负责强化对 SOC(安全运行中心)活动的管理,还负责 SIEM(安全信息及事件管理)软件的演进。
该部门同时还希望能够大规模利用日志文件,并创建多业务部门服务
因此,BPCE-IT 致力于开发和大规模提供一系列面向集团内部客户与合作伙伴(开发者、集成商、各个运营团队,以及诸如 Natixis 等分公司)的服务。由于此项目面临着多项内在挑战,所以 BPCE 集团开始与 Elastic 专家进行协作,以期实现打造共享式平台的目标。这包括对基础架构和应用程序日志文件(远程银行、网络安全、Web API 等)进行分析,运营安全,IT 运行状况的性能和调优,以及对根据各种用例按需部署的集群进行集中管理和支持。
Elastic 的 Alerting 功能最初用于该集团数据中心的 1,200 台服务器,使用后评估效果十分良好,目前此功能已处于全面运行状态。通过此功能,该集团有可能根据预先确定的配置来优化所生成警报的相关性,并且识别现有其他解决方案中的潜藏问题。目前警报仍然采用电子邮件的形式,但该公司最终希望将警报系统整合至工单平台,以便对异常情况、事件和协助请求进行管理。
该公司的目标是确保能够快速安全地访问存储在可扩展集群中的大量日志文件
BPCE-IT 希望尽快寻找到一个解决方案,从而通过单一平台对来自安全设备的大量日志文件进行管理。希望实现的目标:缩短事件响应时间,并洞悉系统的状态。Elastic Stack 具有多项优点,第一是开源性,第二是基础架构可扩展,第三是经证明能够近实时地整合大量日志文件的搜索和分析结果;正是这些优点引起了 BPCE-IT 的浓厚兴趣。公司因此决定针对 SOC(安全运营中心)项目订阅 Elastic Stack 白金级服务,并将日志文件的收集范围扩大至整个信息系统 (IS)。此项订阅服务的关键优势是 Security 功能,更具体而言,是对大量数据访问权限的管理功能,这是 BPCE-IT 运营数据的一个战略关注点。Elastic 还有另外一个优势,其能够轻松将安全信息和事件管理 (SIEM) 软件与 Logstash 进行整合,这便可以确保无论使用何种 SIEM 解决方案,都能拥有一个日志文件收集链条。Elastic Stack 还能对海量安全数据进行实时分析和临时扫描,从而真正做到“威胁追踪”。
Elastic Stack 能够很好地与我们的 IS(信息系统)进行整合。通过 Elastic Stack,我们能够重复利用日志文件,获取有关我们安全平台的实时洞见,并在 SOC 内部开展“威胁追踪”活动。
为了确保银行应用程序的正确运行
由于能够对日志文件进行集中管理,该公司可以进行跨区块分析,并对事务进行端到端跟踪,从而提高事件解决流程的效率。然而,所遇到问题的性质有时并不完全相同;有些问题与基础架构的使用情况相关,而其他则与合作伙伴发布机构所交付软件中的异常情况相关。应用程序和技术日志文件的内容可以揭示异常情况,这些异常情况是十分宝贵的信息来源,可极大地帮助公司实现 100% 软件可靠性的目标,对于新的处理作业类型而言,更是如此。
该公司不仅使用 Elasticsearch 跟踪生产环境中的各项客户服务,而且还会使用 Elasticsearch 来调查所谓“非生产环境”中的活动,即软件开发过程中所用的验收和认证平台。所以,开发和维护团队,以及运营人员,都能够对新服务的运行状况进行验证,并确认不会导致整体功能倒退,也不会对整体功能造成负面影响。
应用程序日志文件的分析结果可以在 Elastic 的 Kibana 工具中以各种形式进行展示,各个小组也会经常用到这些分析结果。“数据工厂”是系统聚合过程中所创建的一个小组,该组致力于创建一个可以造福所有团队的唯一系统;这个小组是内部客户受益于 BPCE-IT 所提供服务的一个很好例子。另一个例子是新成立的实体 89C3(BPCE 的 Leet Speak 语言(黑客语)表达形式),该实体负责开发和发布与公司数字转型相关的应用程序的生产环境。
多亏了 Alerting 功能,我们在响应能力方面实现了很大改进,尤其是针对非典型响应时间以及来自日志文件的 HTTP 错误代码。根据所确定的问题,工具会自动将功能异常的详细信息发送到负责团队。通过这一功能,我们还有可能在扩展期间衡量性能,使用为改善连接链条而面向相关服务提供的全面诊断即可。
随着客户端数量的增加,Elastic 集群的数量也在不断增加,所以该公司很快便需要一套主动型自动监测系统,从而改善索引相关问题的响应能力;这些索引相关问题可由解决方案中的各个相关组成部分(Beats、Logstash、Kafka、Elasticsearch)引起。Alerting 功能可以近乎实时地检测事件,从而恢复服务和数据的可用性,甚至在运营人员获悉此类问题之前便能予以解决。
Alerting 功能还能够每天自动对最关键的业务数据进行聚合,并将这些数据重新分发到生命周期较长的轻量型索引中。所以,Kibana 仪表板的性能得到改善,并且响应时间也得以缩短,同时特定索引的磁盘空间在最佳状况下可减少至原来的 1/300。
业务导向的实施战略
BPCE-IT 的第一步工作是通过可轻松与 SIEM 进行整合的解决方案,确保自有系统的运行安全。随后,此部门开始分析并处理来自不同业务线的多个基础架构和应用程序日志文件孤岛,从而大规模利用这些数据。目标是创建一个十分宽泛的共享式日志文件分析平台,并且此平台能够管理来自各种来源的数据。
对于将日志文件整合到系统中这一流程,目前该部门在规划几乎所有项目时都会将其包含在内。运行应用程序的团队现在能够十分自如地使用 Kibana 界面。该部门现在会基于自动警报定期采取措施,以提高响应能力。BPCE-IT 同时还使用 Kibana 来获取性能指标并生成企业报告。
对于未来要部署的服务,关于 Machine Learning 插件的 POC(概念验证)已完成验证,能够用来分析 Caisse d’Epargne 分部工作站的稳定性和使用情况。其中包含的这项功能尤为值得一提:在研究应用程序行为的同时,通过更好地识别事件发生的频率和原因来预测未来事件并缩短解决问题所用的时间。最终,集团的所有在线银行日志文件可以通过此平台进行收集,以便对远程服务的使用情况进行研究。
仪表板示例
针对多样化的按需服务确保日志文件集群的安全
借助丰富且可扩展的 Elastic Stack 功能,BPCE-IT 满足了集团诸多内部客户和合作伙伴的多样化需求,成功完成了实施多样化服务的使命,目前正致力于推广此服务。
在生产环境中成功部署了几个用例后,BPCE-IT 当前正在将来自软件和各种接口(十分活跃的“数字工厂”提供的接口)的日志文件注入到 Elastic 集群内。其中有一个目标尤其值得一提:借助 Machine Learning 功能发掘这些数据的价值,以便创建预测分析作业并检测代码异常情况或应用程序之间的相关性。
应用程序团队定期要求我们提供性能和功能分析,以便他们更好地了解自己环境中的动态,并充分利用数据的价值(有时他们自己的确很难利用这些数据)。由于得以大规模处理日志文件,我们能够满足客户各种各样的请求,进而这些客户能够提高灵活性和敏捷性。
BPCE-IT 对 Elastic Cloud Enterprise (ECE) 的 POC 进行了验证,该 POC 希望通过单一的控制台协调完成所有 Elasticsearch 集群的试点和部署工作。他们还有一个目标,即通过使用 Elastic Stack 白金级订阅服务中包含的全部功能,为集团的所有内部客户提供优质服务。BPCE-IT 还希望深入挖掘诸多开源集群的数据,但首先他们需要确保这些集群的安全性,因为用户并非时刻都能意识到自己通常十分敏感的数据所面临的风险。
在以“按需集群”模式运行了一年多之后,我们计划于 2019 年第一季度在生产环境中部署 ECE,从而为集团内的所有相关方提供完整且相同的服务,同时将未来应用开发的管理工作也集中到这个公共管理平台上来,与此同时,我们还要逐渐将现有部署迁移到这里。
我们在 2019 年还计划开展其他项目,所以 Elastic Stack 的使用范围肯定会越来越广。信息系统安全部门已计划在第一季度对另一份有关 Machine Learning 功能的 POC(概念验证)进行验证。此 POC 的目标是改善对银行网络诈骗和数据丢失情况的检测能力。
这些各种各样的项目都与集团 “Innov 2020”(创新 2020)战略计划相一致,该计划的目标是通过大规模处理数据和确保数据的安全来提高整体运营效率,同时改善提供给合作伙伴的一系列服务。