AIOps란 무엇인가? 초보자 안내서

large-illustration-machine-learning-anomaly-1200x630.png

Observability를 위한 AIOps 이해 

IT 운영을 위한 인공 지능(또는 줄여서 AIOps)은 개발자, SRE 및 DevOps 전문가들 사이에서 계속해서 화제가 되고 있습니다. AIOps 사례는 하이브리드 및 멀티 클라우드 환경에 걸친 오늘날의 광범위한 Observability 작업의 특성을 고려할 때 특히 중요합니다. 대부분의 Observability 플랫폼에서와 마찬가지로, 이 모든 것은 메트릭, 로그, 추적 및 이벤트와 같은 원격 측정 데이터에서 시작됩니다. 

IT 운영 팀이 해당 데이터를 수집하고 분석하기 시작하면 AIOps의 이점이 빠르게 명확해집니다. AIOps는 주의가 필요한 영역을 미리 정확하고 능동적으로 파악하고 IT 팀이 문제를 더 빨리 해결할 수 있도록 지원하는 것을 목표로 합니다. 인간으로서, 우리는 페타바이트의 원시 Observability 데이터를 계속해서 제대로 분석할 수 없습니다. AIOps를 추가하면 분석 및 자동화를 통해 인텔리전스 계층을 제공하여 팀의 오버헤드를 줄이는 데 도움이 됩니다. 이 중요한 주제에 대한 일반적인 질문에 대해 자세히 알아보겠습니다!   

AIOps란 무엇이며 나에게 어떻게 도움이 될 수 있는가? 

간단히 말해서, AIOps는 AI/ML 및 관련 분석 기술을 사용하여 IT 운영을 용이하게 하고 지원하는 소프트웨어 시스템의 기능입니다. AIOps 기능은 로그 데이터, 추적, 메트릭 등 다양한 운영 데이터 수집 및 처리에 적용할 수 있습니다. 

Gartner™, Forrester™ 등의 정의와 설명은 종종 모호하고 혼란스러운 AIOps의 세계를 명확히 하기 위한 것입니다. AIOps는 문제와 인시던트를 더 빨리 탐지, 이해, 조사, 근본 원인 파악 및 해결하는 데 소요되는 시간과 노력을 크게 줄이는 데 도움이 될 수 있습니다. 문제 해결 중에 시간을 절약하면 IT 직원이 더 가치가 높은 작업과 프로젝트에 더 많은 에너지를 집중할 수 있습니다. 

Observability 전략의 일환으로 AIOps가 필요한 이유는 무엇인가? 

디지털 혁신 이니셔티브에서 클라우드 마이그레이션과분산형, 하이브리드 또는 클라우드 네이티브 애플리케이션 배포에 이르기까지 시장 역학은 IT 운영 환경을 크게 변화시키고 있습니다. 

환경 변화에는 다음과 같은 세 가지 특성이 있습니다.

  • 데이터 볼륨: Observability를 위한 데이터 볼륨이 계속해서 기하급수적으로 증가하고 있음  
  • 복잡성: 애플리케이션, 워크로드 및 배포가 계속해서 점점 더 복잡해지고, 사용 후 삭제되며, 분산됨
  • 변화 속도: 변화(애플리케이션 및 인프라) 발생 속도가 그 어느 때보다 빨라짐

이 특성들은 상호 배타적이지 않습니다. 어떤 면에서는 그 반대입니다. 예를 들어, 변경률이 높고 자동 확장 기능을 사용하는 복잡한 배포는 훨씬 더 많은 데이터 볼륨을 의미합니다. 이러한 복잡성 증가는 인간이 변화를 따라잡기 위해 시스템과 자동화에 점점 더 의존하게 될 것임을 의미합니다. 그리고 AIOps는 이러한 과제에 대응하는 데 핵심적인 역할을 합니다. 

AI/ML을 활용하여 데이터를 요약 및 롤업하고 저장 공간을 위해 데이터를 지능적으로 계층화하면 볼륨 문제를 어느 정도 완화하는 데 도움이 될 수 있습니다. 예를 들어, 인프라 및 서비스 종속성 맵을 통해 애플리케이션 환경을 명확하게 시각적으로 묘사하고 상황에 맞는 탐색을 하여 사용자가 자연스럽게 배포에 대해 어떻게 생각하는지에 맞춰 문제 해결 노력을 진행하는 데 도움이 됩니다. 또한 문제의 자동 표면화와 근본 원인 분석은 다른 복잡성 문제 중 일부를 해결할 것입니다. 

Observability 제품은 모든 애플리케이션 및 인프라 변경 사항을 추적하고 이러한 변경 사항을 시스템 동작 및 사용자 경험과 연관시켜야 합니다. 왜냐하면 변경 사항은 종종 급격하고 비정상적인 동작의 근본 원인이기 때문입니다. 의도하지 않은 결과를 초래하는 새로운 기능에 대한 업그레이드 또는 패치가 대표적인 예입니다. 이러한 상관 관계를 사용하면 팀이 빈번한 변경 사항에 대처하는 데 더 민첩하고 능숙해져 서비스 성능을 유지하는 데 도움이 됩니다.

따라서 AIOps가 핵심적인 역할을 하며, 적절하게 구현되고 사용되면 이러한 과제를 효과적으로 탐색하는 데 도움이 되어 운영 팀이 더 중요한 작업에 집중할 수 있습니다. 

AIOps가 가장 잘 지원하는 Observability 사용 사례는 무엇인가?

예를 들어, 다음과 같은 AIOps 기술 및 기술의 적용을 통해 다음과 같은 몇 가지 Observability 워크플로우 및 사용 사례가 이미 매우 잘 활용되고 있습니다. 

  • 지연 시간의 갑작스러운 변화 또는 예기치 않은 변화와 같은 서비스 저하는 이상 징후 탐지를 통해 탐지될 수 있습니다. 
  • 비정형 또는 반정형 로그 메시지와 같은 방대한 볼륨의 데이터를 자동으로 분류, 범주화 및 요약하여 사용 및 분석을 용이하게 하는 데 도움이 될 수 있습니다. 
  • 여러 증상, 이벤트 및 문제를 연관시켜 경보 "소음"을 줄이고 근본 원인을 파악하는 데 걸리는 시간을 줄일 수 있습니다. 
  • 영향, 이상 정도 및 기타 조치의 평가를 기반으로 한 자동 상태 채점은 가장 중요한 문제를 먼저 처리하여 소음을 더욱 감소시키는 데 도움이 됩니다. 

더 잘 이해되고 시간이 지남에 따라 입증된 "증상이 이러한 경우 이것이 근본 원인일 가능성이 높음" 관계에서, AIOps는 이러한 증상을 자동으로 찾고, 탐지하고, 분류하고, 잠재적인 근본 원인을 표면화하는 데 도움이 될 수 있습니다. AIOps를 사용하면 일상적인 문제나 사소한 문제를 해결할 수 있습니다. 향후 블로그에서는 주요 사용 사례와 일상적인 운영에 AIOps를 적용하기 위한 시나리오를 파악하는 방법에 대해 좀더 자세히 살펴보겠습니다. 

AIOps는 어떻게 조직의 비즈니스 가치를 높이는가? 

IT 및 소프트웨어 개발의 많은 이니셔티브와 마찬가지로, AIOps는 조직과 팀에 여러 가지 방식으로 이점을 제공합니다. AIOps는 IT 운영(ITOps), 사이트 안정성 엔지니어링(SRE) 및 DevOps 팀이 요구하는 일상적이고 반복적인 작업을 크게 줄일 수 있으며, 아울러 다음과 같은 비즈니스 이점도 있습니다. 

  • MTTD, MTTR(평균 탐지 시간 및 평균 문제 해결 시간)을 줄이면 서비스 가동 중단 시간이 줄어들고 SLA가 개선되며 고객 환경이 개선됩니다. 
  • 조직이 빠르게 증가하는 데이터 볼륨을 지능적으로 처리하여 총 소유 비용(TCO)을 절감하고 확장 문제를 완화할 수 있도록 지원합니다. 
  • 신호 및 경보 소음을 줄이고 더 나은 자동화를 구현하면 운영 팀이 더 높은 가치의 이니셔티브를 자유롭게 수행하는 데 도움이 됩니다. 
  • AIOps는 계속 증가하는 IT 복잡성을 처리하는 조직의 능력과 전반적인 변화 속도를 개선하여 기업이 고객에게 보다 빠르고 빈번하게 가치를 제공할 수 있도록 지원합니다. 

오늘날의 클라우드 네이티브 및 하이브리드 애플리케이션 환경의 볼륨, 복잡성 및 변화 속도를 고려할 때, AIOps는 있으면 좋은 기능에서 IT 운영 팀의 중요 업무용 역량으로 점점 더 변화하고 있습니다.  

AIOps에 대한 신뢰를 구축하고 프로덕션 준비를 갖추려면 어떻게 해야 하는가? 

IT 인력, SRE 및 DevOps 엔지니어는 Observability 사용 사례에 AIOps를 성공적으로 채택하고 사용하기 위해 넘어야 하는 몇 가지 채택 장애물이 있습니다. 

한편으로, 특정 분야 사람들끼리 쓰는 유행어 문제가 있으며, AIOps 시장에는 이러한 유행어가 많이 있습니다. 사용자는 이러한 유행어를 뛰어넘는 비즈니스 가치가 무엇인가?와 같은 질문에 직면해 있습니다. 그리고 AIOps가 현재의 모니터링 또는 Observability 설정보다 문제를 더 효율적으로 더 잘 탐지하고 해결하는 데 도움이 될 것인지 여부입니다. 유행어와 과대 광고 외에도, 사용자는 특정 사용 사례에 대해 AI/ML의 이점을 이용하게 될지 항상 알지는 못할 수 있습니다. 

그리고 신뢰의 장애물이 있습니다. 그러한 장애물 중 하나는 AIOps 기반 인사이트가 정확한지 여부를 사용자가 구분하지 못하는 것입니다. 사용자는 분석이 얼마나 포괄적인지, 사용된 정보, 알고리즘이 어떻게 작동하는지, 결론에 어떻게 도달하는지 또는 그러한 결론이 현재 조사와 관련이 있는지조차 알지 못할 수 있어, 블랙박스 AIOps 시스템에 대한 일반적인 불신을 초래할 수 있습니다. 경우에 따라 신뢰 부족으로 인한 조직의 압력이나 정책도 AIOps 채택에 장애물이 될 수 있습니다.  

우리의 경험에 따르면, AIOps가 그 가치를 제공하는 가장 좋은 방법은 느리고 꾸준한 채택입니다. 먼저, AIOps를 개념 증명(POC)으로 채택하기 시작하려면 구체적이고 오랜 세월에 걸쳐 유효성이 증명된 검증된 사용 사례를 식별합니다. 다음으로, 배포된 소규모 하위 집합에서 AIOps 기능을 사용하는 동시에 각 단계에서 이점과 결과의 유효성을 검사하고 소통합니다. 어느 정도 성공을 거두면, 프로덕션 환경으로 전환하면서 점진적으로 더 많은 AIOps 기능을 지원합니다. 이 신중한 배포 경로를 활용하면, 그렇지 않을 경우 광범위한 AIOps 채택을 하지 못하게 만들 수 있는 새로운 기술 배포와 관련된 일반적인 문제 중 일부를 완화합니다. 

소규모 실험실이나 비 프로덕션 환경에서 기술 효율성을 테스트하고 입증하고 결과를 측정하여 경영진에게 보여주면 실제 프로덕션 환경에 AIOps를 배포하기 전에 자신감을 높이고 후원을 얻을 수 있습니다. 이러한 테스트는 누락되거나 일관성이 없는 데이터, 단순 적용 범위 또는 불충분한 저장 공간이나 컴퓨팅과 같은 다른 격차와 요건을 찾아낼 수 있습니다. 프로덕션 환경에 AIOps를 배포할 때는 Observability 솔루션이 기능을 적절하게 확장하고 엔터프라이즈 워크로드를 처리할 수 있는지 확인하세요. 실험실이나 POC 환경에서 잘 작동하는 특정 AIOps 기능은 일반적으로 프로덕션 환경에서 발생하는 대규모 요건을 따라잡기 위해 어려움을 겪을 수 있습니다. 

어떻게 Observability가 AIOps의 일반적인 정의를 넘어 더 심층적인 AI와 머신 러닝을 활용할 수 있는가?  

모든 것은 데이터에서 시작됩니다. 분석할 수 있는 데이터가 더 포괄적이고 풍부할수록 AI/ML 기술의 적용을 통해 해당 데이터로 더 많은 작업을 수행할 수 있습니다. AI/ML의 고급 적용은 비즈니스 인사이트를 추출하고, 여러 신호에 걸쳐 예측 또는 선행 지표를 도출하거나, 필요할 때 완전히 사용자 정의된 AI/ML을 정의하고 배포하는 것과 같은 추가적인 사용 사례를 추진하는 데 도움이 될 수 있습니다. 

기존 AIOps를 뛰어넘는 AI/ML 사용 사례로는 자연어 처리(NLP)가 있습니다. NLP는 텍스트 데이터를 범주화하고 분류하는 데 도움이 됩니다. NLP는 새로운 애플리케이션 롤아웃 또는 주요 기능 업그레이드와 같은 이벤트와 관련된 사용자의 감정을 측정하여 Observability를 보완하고 향상시키는 데 도움이 되는 감정 분석과 같은 사용 사례에 유용합니다.  

특정 사용자 정의 엔터프라이즈 요건에 맞는 맞춤형 솔루션을 위해, IT 팀은 자체 ML 모델링 체계를 도입하여 구축, 교육, 테스트 및 프로덕션 환경에 배포하기로 결정할 수 있습니다. 이러한 모델의 결과를 사용자 정의 대시보드 또는 보고서에서 시각화할 수 있으므로 IT 조직은 즉시 사용할 수 있는 기능을 통해 충족되지 않는 특별 요건, 일회성 요건 또는 특정 요건을 충족할 수 있습니다. 

앞으로 AIOps가 처리할 수 있는 사용 사례 및 추세는 무엇인가? 

데이터가 수집, 지속성(데이터 가용성, 성능과 총소유 비용(TCO)의 균형), 분석에서 시각화 및 문제 해결에 이르는 과정에서 AIOps는 계속해서 중요한 역할을 수행할 것입니다. 

데이터 볼륨이 계속 증가함에 따라, 데이터 수집 중 AI 지원 분석은 어떤 데이터가 수집 및 분석에 가장 의미가 있는지 판단하는 데 도움이 될 것입니다. 수집 엣지에서 AI/ML 알고리즘을 실행하면 수집 시점 또는 그 근처에서 데이터를 요약하고, AI 스마트를 배포하고, 모든 분석을 중앙 집중화해야 하는 요건을 줄이는 데도 도움이 될 것입니다. 분류 및 범주화 체계는 들어오는 데이터를 저장 공간을 위해 웜 티어로 보낼 것인지 콜드 티어로 보낼 것인지를 동적으로 결정하여 TCO를 최적화합니다. 분석은 여러 신호와 데이터에 독립적으로 작용하여 비정상적인 동작을 탐지한 다음, 근본 원인을 신속하게 분리합니다. 또한 자동 교정에 대한 고객의 신뢰가 높아지기 시작함에 따라 교정 자동화는 더 많은 사용 사례와 시나리오에 대해 독립적이 됩니다. Observability 시스템은 점점 더 폐쇄적인 루프를 형성하기 시작할 것입니다. 즉, 데이터를 수집, 저장 및 분석하고, 점점 더 적은 사람의 개입으로 더 많은 인시던트를 자동으로 탐지하고 교정합니다. 

오늘날의 클라우드 네이티브 환경에서 DevOps 팀에게 중요한 AIOps

많은 새로운 기술들과 마찬가지로, AIOps의 정의와 그 이점은 계속해서 진화하고 있습니다. AIOps를 Observability 전략의 일부로 포함하는 것은 계속 증가하는 데이터, 복잡성 및 변화 속도에 대한 자연스러운 대응의 일부입니다. 그리고 잘 구현되면 AIOps는 상당한 비즈니스 가치를 창출할 수 있습니다. 

향후 블로그에서 개선 및 효율성을 높이기 위한 일반적인 AIOps 사용 사례에 대해 자세히 다룰 예정이니 계속 지켜봐 주세요.