Elastic Observability: 평균 해결 시간을 0으로 단축
ElasticON Global 2021에서 Observability 제품 부사장인 Tanya Bragin과 Elastic Observability 팀이 지속적인 혁신을 통해 실행 가능한 통찰력을 제공하고 근본 원인을 더 빠르게 탐색하여 평균 해결 시간(MTTR)을 단축하는 방법을 보여주었습니다.
클라우드, 마이크로서비스, 임시 인프라의 도입으로 복잡성이 증가하면서 포괄적인 가시성을 제공하는 통합 가시성 솔루션의 필요성이 대두되었습니다. Gartner, GigaOm 및 EMA의 높은 평가를 받은 Elastic Observability는 다음과 관련된 기능을 제공하면서 계속해서 포괄적인 솔루션을 구축하고 있습니다.
- 중앙 집중식 관리를 통해 모든 텔레메트리 데이터를 수집하는 통합 에이전트
- 클라우드 네이티브 기술(예: Kubernetes)과의 통합
- Amazon Web Services, Microsoft Azure 및 Google 클라우드 플랫폼을 비롯한 주요 클라우드 서비스 제공자와 기본 통합 제공
- 머신 러닝을 활용한 애플리케이션 성능 모니터링(APM)의 자동화된 근본 원인 분석
- 로그, 타사 종속성 및 백엔드 서비스를 통합하는 향상된 APM 문제 해결 워크플로우
- 상황별 문제 해결을 위한 직관적인 서비스 맵
- OpenTelemetry(OTel) 지원
- 가상 및 실제 사용자 모니터링(RUM) 기능 향상
정확도, 컨텍스트, 실행 가능성을 갖춘 데이터
운영 팀과 개발 팀은 메트릭, 로그 및 추적별로 분리된 도구를 사용하는 경우가 많습니다. 단일 도구를 사용하더라도 데이터가 컨텍스트 없이 분리되어 있거나 관련 메타데이터(차원)가 누락되어 평균 탐색 시간(MTTD)과 평균 해결 시간(MTTR)이 증가하는 경우가 많습니다. Elastic Observability는 성능 저하나 비용 급증이 전혀 또는 거의 없이 높은 차원 및 커디널리티로 구성된 대량의 데이터로 원활하게 확장됩니다.
Elastic Agent 및 중앙 집중식 관리를 통한 매끄러운 온보딩으로 Kubernetes와 같은 클라우드 네이티브 기술을 비롯하여 모든 텔레메트리 데이터를 간편하게 수집할 수 있습니다. 또한 Microsoft Azure 및 Google Cloud Platform과의 통합도 추가되어 기본적으로 텔레메트리 데이터를 수집할 수 있으며 다른 플랫폼과의 통합도 추가될 예정입니다.
인시던트를 빠르고 효율적으로 해결하려면 컨텍스트가 필요합니다. Elastic APM 서비스 맵은 서비스 상태, 탐색된 이상 징후, 로그를 트랜잭션 컨텍스트에서 볼 수 있는 기능을 제공하여 애플리케이션 토폴로지를 시각화하고 문제 해결을 가속화합니다. 또한 서비스 성능을 원하는 과거의 기준선과 비교하여 오작동하는 서비스를 손쉽게 탐지할 수 있습니다. 최근에 지원된 타사 서비스 종속성에 대한 성능 뷰를 사용하면 환경의 사각지대를 제거할 수 있습니다. 기술 미리 보기에서 모바일 iOS 에이전트를 지원하는 등 APM 기능을 계속 확장하고 있습니다.
통합 가시성 여정의 다음 단계로 애플리케이션과 인프라 간에 컨텍스트를 제공할 예정입니다. 인프라의 성능 문제로 인해 애플리케이션 성능이 저하되는 경우가 종종 있습니다. 애플리케이션 성능 및 관련 로그의 컨텍스트에서 인프라 성능을 볼 수 있는 기능을 제공하여 확장된 통합 가시성을 제공하려고 합니다. 또한 버전, 클라우드 리전, 가용 영역, 기타 메타데이터에 걸쳐 서비스 성능을 비교할 수 있는 기능을 요청받기도 했습니다. 향후 이러한 기능이 추가되면 A/B 또는 카나리아 배포 간에 성능을 비교하는 데 도움이 되고 배포 문제를 빠르게 해결할 수 있을 것입니다.
임시 분석 및 머신 러닝
오늘날 현대적 애플리케이션의 분산 특성과 매일 페타바이트 규모로 생성되는 텔레메트리 데이터로 인해, 단일 팀이나 개인이 모든 종속성을 파악할 수는 없습니다. 팀에서 복잡한 문제를 효과적으로 해결하려면 실행 가능한 통찰력을 제공하는 동시에 데이터에 대한 질문을 할 수 있는 머신 러닝이 필요합니다.
Elastic 플랫폼은 바로 사용할 수 있는 다양한 머신 러닝과 사용자 지정 머신 러닝 작업을 구축할 수 있는 기능을 제공합니다. APM 상관관계 기능은 머신 러닝을 활용해 애플리케이션 성능의 편차를 분석하여 오작동하는 서비스를 식별합니다. 따라서 데이터를 검색하고 분석할 필요가 없으므로 가동 중단이 줄어들고 개발자 생산성이 향상됩니다.
Elastic은 시스템은 복잡하며, IT 운영, SRE 및 DevOps 팀이 알려지지 않은 정보를 이해하기 위해서는 데이터를 분석하고 조사해야 한다는 것을 잘 알고 있습니다. 곧 공식 출시 예정(GA)인 새로운 직관적 UI는 다양한 코호트에 대해 질문을 하고 데이터 탐색을 큐레이션할 수 있는 기능을 제공합니다. 이 기능을 사용하면 다양한 소스와 서로 다른 데이터 유형의 데이터를 오버레이, 필터링 및 탐색할 수 있습니다. 큐레이션된 대화형 임시 데이터 탐색 뷰를 사용하면 데이터를 자세히 살펴보고, 알려지지 않은 정보를 이해하며, 근본 원인을 조사하는 데 필요한 시간을 최소화할 수 있습니다.
오픈 소스는 우리의 DNA
Elastic Observability의 기반은 오픈 소스로, 성능 모니터링 데이터를 완벽하게 제어하고 유연하게 관리할 수 있는 기능을 제공합니다. 오픈 소스 프로젝트를 지속적으로 지원한 것이 제품 로드맵을 구체화하고 정의하는 데 도움이 되었습니다. OpenTracing 및 OpenMetrics부터 Jaeger, Prometheus, 그리고 현재 OpenTelemetry에 이르기까지 일찍부터 개방형 표준과 프로토콜을 채택해 왔습니다.
Prometheus는 메트릭의 사실상 표준이며 고객에게 메트릭 저장을 위한 개방형 표준 옵션을 제공합니다. Elastic Observability는 Prometheus와 통합되어 메트릭을 저장하고 분석할 수 있는 옵션을 제공합니다. OpenTelemetry(OTel)는 메트릭, 로그 및 추적에 대한 공동 개방형 표준을 개발하는 CNCF 프로젝트입니다. Elastic에서는 OTel 프로토콜(OTLP) 엔드포인트를 통해 OpenTelemetry를 기본적으로 지원하거나 Kafka를 통해 Elastic 플랫폼으로 스트리밍합니다. Elastic Observability는 오픈 소스에 지속적으로 투자하고 이를 지원하고 있으며, 고객은 운영을 선택하고 제어할 수 있어야 한다고 생각합니다.
고객과 함께 발전하는 Elastic
Elastic은 포괄적이고 통합된 통합 가시성 플랫폼을 제공하기 위해 고객의 의견에 귀를 기울이고 있습니다. 현존하는 가장 강력한 엔터프라이즈 검색 플랫폼을 시작으로, 복잡한 IT 환경을 지원하기 위해 혁신을 거듭하고 있습니다. 커뮤니티의 적극적인 참여로 Elastic Observability는 확장 가능한 개방형 플랫폼을 통해 클라우드 네이티브 환경과 하이브리드 환경에 대한 가시성을 지속적으로 제공하고 있습니다.
Elastic Observability의 비전에 대해 자세히 알아보려면 ElasticON Global에서 기조연설과 기타 Observability 세션을 시청하거나 Elastic 웹사이트에서 Elastic Observability 페이지를 확인해 보세요.
이 게시물에 설명된 기능의 릴리즈 및 시기는 Elastic의 단독 재량에 따릅니다. 현재 이용할 수 없는 기능은 정시에 또는 전혀 제공되지 않을 수 있습니다.