AIOpsビギナーズガイド

large-illustration-machine-learning-anomaly-1200x630.png

オブザーバビリティのためのAIOps 

IT運用のための人工知能(略称AIOps)は、開発者、SRE、DevOpsプロフェッショナルにとって注目のトピックとなっています。オブザーバビリティに対する今日の取り組みは、ハイブリッドおよびマルチクラウド環境全体にわたって拡大を続けています。そのような状況の中で特に重要となっているのは、AIOpsの採用を検討することです。ほとんどのオブザーバビリティプラットフォームと同様に、AIOpsもメトリック、ログ、トレース、そしてイベントといった会社のテレメトリーデータから始まります。 

IT運用チームがデータを収集し、分析を開始すれば、AIOpsのメリットはすぐに明らかとなります。AIOpsの目的は、注意が必要な領域を正確かつ積極的に特定し、問題をより迅速に解決できるようITチームを支援することです。人間がペタバイト規模の生のオブザーバビリティデータを分析し続けることはできません。AIOpsを追加すれば、分析機能と自動化によるインテリジェンスレイヤーが実現し、チームのオーバーヘッドの削減に役立ちます。以下では、この重要なトピックに関する一般的な質問に詳しく答えていきます。   

AIOpsとは何ですか?どのように役立ちますか? 

簡単に言うと、AIOpsとは、AI/MLやそれらに関連する分析テクノロジーを使用してITの運用を支援するソフトウェアシステムの機能です。AIOps機能は、ログデータ、トレース、メトリックなど、さまざまな運用データのインジェストや処理に適用できます。 

あいまいで紛らわしいことが多いAIOpsの世界を、Gartner™やForrester™などが定義したり説明を行うことで明確化しようとしています。AIOpsにより、問題やインシデントを検知、把握、調査してその根本原因を判断するための時間と労力を大幅に削減できるため、より迅速に修正できるようになります。トラブルシューティングの時間を節約できれば、IT担当者はより高価値のタスクやプロジェクトに労力や時間を費やせるようになります。 

オブザーバビリティ戦略の一部としてAIOpsが必要なのはなぜですか? 

デジタルトランスフォーメーションイニシアチブから、クラウドへの移行、そして分散型、ハイブリッド型、またはクラウドネイティブのアプリケーションの展開に至るまで、市場のダイナミクスがIT運用環境に劇的な変化をもたらしています。 

このような状況の変化には、次の3つの特徴があります。

  • データ量:オブザーバビリティのためのデータ量が急激な増加を続けています。  
  • 複雑さ:アプリケーション、ワークロード、およびデプロイメントの複雑化、短命化、分散化がますます進んでいます。
  • 変化のペース:アプリケーションやインフラストラクチャーに変化が発生する速度が、これまでにないほど速くなっています。

これらはお互いに独立して発生しているのではありません。その逆だと言えます。たとえば、変化の速度が速いことと自動スケーリングを活用した複雑なデプロイメントは、さらなるデータ量を生み出すことにつながります。このようにさらに複雑化していけば、人間はその変化についていくためにシステムや自動化にますます頼らざるを得ません。AIOpsは、それらの課題に対応する上で重要な役割を果たします。 

AI/MLを活用してデータをまとめ、インテリジェントに階層化して保存すれば、データ量に関する課題のいくつかは軽減できます。たとえばインフラストラクチャーとサ―ビスの依存関係のマッピングを使用して、アプリケーション環境を視覚的に表示するとともに、コンテクストを認識したナビゲーションを使用すれば、そのデプロイメントに対するユーザーの認識と、トラブルシューティング方法をうまく合わせることができます。さらに、問題の自動表示と根本原因分析によって、複雑さに関するその他のいくつかの課題に対処できます。 

オブザーバビリティ製品は、アプリケーションとインフラストラクチャーに関するすべての変化を継続的に追跡し、それらの変化をシステムの振る舞いとユーザーエクスペリエンスに相関付けする必要があります。なぜなら、異常で重大な振る舞いの根本原因はしばしば変化となって表れるからです。その典型的な例が、新機能へのアップグレードまたはパッチ適用によって意図しない結果がもたらされることです。相関付けを行えるようにすれば、チームはより俊敏になり、サービスパフォーマンスを維持するための頻繁な変更にも対応できるようになります。

その実現に重要な役割を果たすのがAIOpsです。適切に実装して使用すれば、変化に効果的に対応することができるため、運用チームはそのような対応業務から解放され、より重要な仕事に集中できるようになります。 

オブザーバビリティに関して、AIOpsが最も役立つのはどのようなユースケースですか?

AIOpsテクニックおよびテクノロジーがすでにきわめて役に立っているオブザーバビリティワークフローやユースケースがあります。たとえば次のようなものです。 

  • 異常検知により、サービス品質の低下(レイテンシーの突然または予想外の低下など)を検知する。 
  • 非構造化または半構造化されたログメッセージなどを含む、きわめて大量のデータを自動的に分類、カテゴリー化、要約する。これにより、データを簡単に使用し、分析できるようになります。 
  • 複数の症状、イベント、問題の相関付けを行う。これにより、アラートの「ノイズ」が低減し、根本原因の判断時間を短縮できます。 
  • 影響、異常の程度、その他の計測値の評価に基づいた健全性スコアリングを自動的に実行する。これにより、最も重大な問題を最初に表示し、ノイズをさらに低減させることができます。 

「この症状なら根本原因はおそらくこれ」という関係性を把握することが重要なのは、誰もが知っている実績のある考え方ですが、AIOpsは症状を自動的に監視、検知、分類して、潜在的な根本原因を明らかにするのに役立ちます。また、AIOpsは日々の小さな問題を修正するためのアクションの実行にも役立ちます。今後のブログでは、主なユースケースや、AIOpsを日々の業務に適用する方法について詳細に説明する予定です。 

AIOpsはどのようにして組織のビジネス価値を促進しますか? 

ITおよびソフトウェア開発の多くのイニシアチブにおいて、AIOpsは複数の方法で組織やチームにメリットをもたらします。AIOpsは、IT運用(ITOps)チーム、サイト信頼性エンジニアリング(SRE)チーム、およびDevOpsチームが必要とする日常的で反復的な作業を大幅に削減すると同時に、次のようなビジネス上のメリットももたらします。 

  • MTTD(平均検知時間)、MTTR(平均復旧時間)の削減。これらにより、サービスのダウンタイムの低減、SLAの改善、カスタマーエクスペリエンスの向上を達成できます。 
  • 急増するデータ量にインテリジェントに対処。総所有コスト(TCO) の削減や、規模の課題の軽減に役立ちます。 
  • シグナルおよびアラートのノイズの低減と、より優れた自動化の実装。運用チームが解放され、より高価値のイニシアチブに集中できるようになります。 
  • ITの複雑化と変化の全体的なペースの高速化に対応する能力の向上。AIOpsにより、企業はより迅速かつ頻繁に顧客に価値をもたらせるようになります。 

今日のクラウドネイティブおよびハイブリッドのアプリケーション環境におけるデータ量、複雑さ、変化のペースを考えると、AIOpsはIT運用チームにとって「あったら便利」という機能から「ミッションクリティカルな能力」へとますます変わってきています。  

どのようにしてAIOpsに対する信頼を構築し、本番環境へとその適用を進めていけばよいですか? 

オブザーバビリティのためにAIOpsの採用と使用を成功させるには、IT担当者、SRE、およびDevOpsエンジニアにとって越えなければならないハードルがいくつかあります。 

その一方で、AIOpsには多くの流行語が伴っているため、そのような流行語にまつわるさまざまな課題もあります。そのような流行語に惑わされず、どのようなビジネス価値がもたらされるのかを考えなければなりません。問題を見つけて修正するためには、現在の監視設定またはオブザーバビリティ設定よりもAIOpsのほうが効率的で優れているでしょうか。流行語や誇大広告に惑わされなかったとしても、特定のユースケースでAI/MLの恩恵が受けられるかどうかを常に把握できるとは限りません。 

さらに、信頼というハードルもあります。その1つに、AIOpsベースのインサイトが正確かどうかをユーザーが判断できる能力がないというものがあります。分析やそれに使用した情報がどれだけ包括的なものなのか、アルゴリズムがどう機能するのか、結論がどのようにして導かれたのか、またその結論が現在の調査において妥当なのかといったことを、ユーザーが認識していない可能性もあり、結果として、ブラックボックス化したAIOpsシステムを信頼できないという考え方が広まる場合もあります。また、信頼の欠如に起因する、組織全体からの圧力や方針によって、AIOpsの採用を阻む壁が生まれることもあります。  

Elasticの経験では、AIOpsの価値を実現する最も良い方法は、ゆっくりと徐々に採用を進めていくことです。まずは、実績のある特定のユースケースからAIOpsの採用を開始し、それを概念実証(POC)とします。次に、デプロイメントの小規模なサブセットにAIOpsを適用して、各ステージでのメリットや成果を検証し、周知していきます。ある程度の成功が得られたら、本番環境での採用に向けてさらにAIOpsの適用を増やしていきます。このような慎重な展開手順なら、新たなデクノロジーを展開していく際によく見られる課題、つまりAIOpsの採用拡大を阻む要因のいくつかを軽減することができます。 

小規模なラボや非本番環境でテクノロジーの効果をテストおよび証明し、その結果を計測して自社の経営陣に提示すれば信頼を高めることができ、実際の本番環境にAIOpsを展開する前に、経営陣の賛同を得ることができます。そのようなテストにより、データの欠落や一貫性のなさ、データの対象範囲の狭さ、ストレージやコンピューティングの不足など、他のギャップや要件が明らかになる場合もあります。本番環境にAIOpsを展開する際には、自社のオブザーバビリティソリューションが、機能を適切にスケーリングして自社のワークロードを処理できるかどうかを確認しましょう。本番環境では通常、大規模な環境に関連する要件が発生します。そのため、ラボやPOC環境でうまく機能したAIOps機能でも、それらの要件に対応するのが難しい場合もあります。 

オブザーバビリティではどのようにして、従来のAIOpsの定義を超えて、より詳細なAIや機械学習を活用できるのでしょうか?  

すべてはデータから始まります。分析に利用可能なデータがより包括的で豊富なほど、AI/MLテクノロジーを適用して、それらのデータでできることがより多くなります。AI/MLの高度な適用方法を活用すれば、さらなるユースケースを促進することも可能です。たとえば、ビジネスインサイトの抽出や、複数のシグナル全体での予測指標または先行指標の取得、完全にカスタマイズされたAI/MLの定義や展開(ニーズが発生した場合)などです。 

従来のAIOpsを超えたAI/MLの利用例として、自然言語処理(NLP)が挙げられます。NLPは、テキストデータのカテゴリー化や分類に役立ちます。NLPは、感情分析などのユースケースで役立ちます。感情分析とは、新しいアプリケーションのロールアウトや機能のメジャーアップグレードなどのイベントに対するユーザーの感情を測定することなどを指します。NLPはオブザーバビリティを補完し、強化します。  

特定の企業要件に合わせてソリューションを調整する場合、ITチームが独自のMLモデリングスキームを導入して、構築、トレーニング、テスト、および本番環境へのデプロイを決定することができます。これらのモデルからの出力は、カスタムダッシュボードまたはレポートで視覚化できるため、IT組織は、既成の機能では満たすことができない特殊なニーズや1回限りのニーズ、または特定のニーズに対応できます。 

今後、AIOpsで対処できるユースケースやトレンドにはどのようなものがありますか? 

データに関するプロセスが、収集から、データの可用性およびパフォーマンスとTCOのバランスを取りながらの継続使用、可視化、そして修復へと進んでいくにつれて、AIOpsは継続して大きな役割を果たします。 

データ量は増え続けていきます。そのため、どのデータを収集して分析するのが最も有意義なのかを判断するためには、AIを活用した分析をデータ収集時に行うことが役に立ちます。収集ポイントでAI/MLアルゴリズムを実行すれば、そのポイントまたはその近くでデータをまとめることが可能になり、AI機能の分散化が実現できるとともに、すべての分析を一元化する要件を緩和できます。分類およびカテゴリー化のスキームを使用すれば、入力データをストレージのウォーム層またはコールド層のどちらに送信すればよいかを動的に決定することができ、TCOを最適化できます。分析によって、複数のシグナルとデータを個別に調査し、異常な振る舞いを検知して、根本原因を迅速に特定することができますまた、自動修復に対する顧客の信頼が高まり始めると、修復の自動化をより多くのユースケースとシナリオで自律的に実行できるようになります。そうなれば、オブザーバビリティ システムはより多くのクローズドループを形成し始めていくことになります。データを収集、保存、分析し、人間の介入がますます少なくなるとともに、より多くのインシデントを自動的に検知して修復します。 

AIOpsは今日のクラウドネイティブな世界のDevOpsチームにとって重要

多くの新しいテクノロジーと同様、AIOpsの定義とそのメリットも進化し続けています。データ、複雑さ、変化のスピードがさらに増し続けている今、AIOpsをオブザーバビリティ戦略に含めることは、それらへの対応方法として自然な流れです。適切に実装することで、AIOpsは大きなビジネス価値をもたらし、さらに促進していきます。 

今後のブログでは、改善と効率を促進するAIOpsの一般的なユースケースについて詳細に説明する予定です。ぜひご注目ください。