Elastic Stackで構築する通信オブザーバビリティ - 音声トラフィックデータを監視する

通信データ処理の中核プロセスにオブザーバビリティ戦略を適用すると、事業者は以前回答できなかった問いに答えられるようになります。このアプローチが知られるようになり、Elastic Stackは通信分野にますます普及しています。ドイツテレコム社も例外ではありません。同社はハンス=コンラッド・ロス氏のリーダーシップの下にデジタルトランスフォーメーションを進めており、社内トラフィック監視のソリューションとしてElasticを採用しました。

Elastic Stackで音声トラフィックデータを監視する

Elasticsearchで作動するElastic Stackは、3つの情報処理の階層すべてに対応します。最初の階層はIngestパイプライン(Elastic Endpoint SecurityBeatsLogstash)です。ユーザーはIngestパイプラインを使い、あらゆるソースからすばやくデータを投入、パース、エンリッチできます。次がElasticsearchです。ユーザーは設定不要の機械学習など、パワフルな機能でデータの格納、クエリ、分析を実施できます。最後の階層を重視するエンドユーザーが多いかもしれません。3番目は、ログメトリックAPMSIEMマップをはじめとする専用アプリ向けにKibanaが提供する、洗練された可視化エクスペリエンスです。

Elastic Stackを導入して従来型のオペレーション作業効率を大幅に改善できる領域の1つに、転送ネットワーク監視があります。従来のシステムは非常にサイロ化されており、異なるソースのデータを相関付けることは不可能ではないものの、非常に困難です。すなわち、インサイトの生成は単一のデータソース領域に限られ、顧客中心的なビューも提供されません。

最も一般的なシステムでは、データオーナーシップが分離されている

従来型のアプローチを脱却して、すべての情報を単一の分析プラットフォームに並べることができれば、新手法によるデータ分析を実現できます。つまり、顧客エクスペリエンスをサービス品質に対して、また事後にシステム可用性に対してマッピングで測定し、問題が生じたコンポーネントを詳細なビューで見るといったことが可能になります。同じデータセットと分析能力を使って、不正なアクセスやネットワークの悪用を検知することもできます。 

サイロ化された環境の配置例

シンプルにデータを投入する 

KPIや障害管理、インベントリ情報、CDR/EDRデータといったインフラデータの多くは、RDBMSやHadoopの精選されたフォームに格納されています。このような複雑なシステムからデータを取得し、Elastic Stackに手っ取り早く投入する1つの方法として、そのシステムと直接統合するというやり方があります。必要なクエリの記述がとても簡単な上、RDBMSにデータのビューを作成したり、SQLレベルでエンリッチを行うことも可能です。ElasticはElasticsearch-Hadoopコネクタを提供しており、Hadoop統合の場合も同様です。

Elastic RDBMS統合の例

Elasticsearch-Hadoop統合

中には、この種の高度なデータウェアハウスを導入していない組織もあります。その場合、LogstashやBeatsを使うことで、EDRやCDRなどのデバイスログ、あるいはMMEのようなコアネットワークデバイスの信号情報データを直接投入できます。

データエンリッチが重視される理由

通信業界で使われるシステムの多くは1つの機能領域に特化したもので、限られたビューしか提供しません。しかし現在、システム性能の向上でより多くのデータを格納できるようになり、何より重要なデータ処理速度も上がりました。顧客のトラフィックやプランニング、インベントリ管理、パフォーマンス管理、障害管理、設定管理、ソフトウェア管理、環境監査といった複数の領域を組み合わせることが可能です。 

1つのドキュメントですべての情報を相関付ければ、分析の新しい可能性が拓かれ、問題の早期解決や新しい発見につながります。

その対象となる興味深い領域に、次のようなものがあります。 

  • 実際の計測値に影響する複数の要素の把握
    • エラー率に対する人的要素の寄与
    • 要素タイプ、ベンダー、位置、インストールタイプ別のネットワーク要素のパフォーマンス把握
    • 天候および環境的条件が計測値に与える影響
  • プラットフォームと周辺システムおよび接続の概要
    • 問題のあるソースの早期特定(MTTRの短縮)

格納と処理

Elastic Stackの核にあるElasticsearchは、データの格納と分析のために設計されています。あらゆるタイプのデータを格納できるため、データセットに設定可能なあらゆる問いに答えるすぐれたオブザーバビリティツールとして使えます。 

音声通信データの基本 

音声トラフィックに関して、通信事業者がシステムから最も一般的に取得しているのがCDR(call data records、通話データ記録)です。CDRをElasticsearchに投入するには、特にデータエンリッチを中心とした簡単な事前処理が必要です。処理後のデータは、深いインサイトを引き出せるよう、データを理解するために十分な情報を備えたものにする必要があります。 

そのように処理したデータセットからは、多数のKPIを抽出できます。簡単に作成できる可視化や分析の例を、以下にいくつか挙げてみます。

CDR(call drop ratio、通話切断率)

  • プラットフォームの問題により切断された通話の数
  • システムがルートした通話数

ACD(average call duration、平均通話時間)

  • 相手先別、およびプロダクト別の平均通話時間
  • ACDが相手先別、およびプロダクト別の平均通話時間を上回る顧客の割合

NER(network efficiency ratio、ネットワーク効率レシオ)

  • 所与の相手先に通話を取り次ぐシステム能力の表現 
  • 所与の相手先についてNERが平均を下回った顧客の割合

以下は、上に挙げた全パラメーターを可視化したものです。 

ASR(answer seizure ratio、通話成功率) 

利用できるビューは次の通りです。

  • 成功した通話の数
  • 発信された通話の数
  • 相手先別、通話方向別のASRが平均より低い利用者の割合

下の可視化は、上位10の通話先ASR / 成功率のトラフィック監視を示しています。

SIPトラフィック分析

下の可視化は、エラーコード500のサマリーを示しています。 

CLI(calling line identification、発端末識別)

利用できるビューは次の通りです。

  • 相手先別、プロダクト別CLI
  • 非CLIルートに影響を受ける顧客の数と割合

下の可視化は、異なるレベルでCLI別のプロファイルを表現し、トラフィックストリームをわかりやすく示しています。

発信/受信数分析

Elastic Stackを活用すると、非常に詳しいデータビューを構築できます。簡単な手順で発信/受信数から分析したパーセント値を算出できるだけでなく、Elasticsearchを使った高度なアグリゲーションや、データセット内の利用可能なフィールドで分割することも可能です。

音声トラフィック分析における異常検知 

異常検知を活用すると、あらゆるトラフィックに簡単に単一の機械学習ジョブを設定して、あらゆるパラメーターやデータエンティティを自動で分割できます。エンティティごとに個別の閾値設定が必要となる従来型のアラートとは異なるアプローチです。機械学習ベースのアラートは、ネットワークに固有の挙動に自動的に適応します。さらにネットワークの不具合検知をより簡単に、迅速に実行するだけでなく、異常な振る舞いを正確に示すことができます。このような異常からは、悪意ある行為者による、収益を目的としたネットワーク悪用が多く見つかります。 

Elastic Stackの機械学習の分析を実施する一般的な手順は次の通りです。

  1. ソースからデータを投入する
  2. データに機械学習検知を適用する
  3. 可視化や解釈のほか、チケット、アラートが生成される 

機械学習分析の一般的なアプローチ 

下の例では、マダガスカルから発信されたトラフィックの異常を確認することができます。システムが接続の著しい増加を検知して、自動のアラートを生成しました。 

以下は別のダッシュボードで、ガボン共和国からのトラフィックの異常を示しています。ユーザーはこの異常検知ビューから、ユーザー作成のカスタムダッシュボードに直接移動することもできます。

このケースで、通信事業者はガボンから発信されるトラフィックアラートの詳細を確認して、異常が個別の番号に起因することをすぐに理解できます。 

いま、CDRデータ分析のためにElastic Stackを導入するケースが急速に増えています。各通信事業者にとって、利用者の振る舞いを追跡し、異常な挙動が見つかった場合に重要なイベントをすみやかに把握できることは重要です。売上機会の損失や、評判を下げるリスクの軽減に大きく貢献するからです。

CSSR(call setup success ratio、コールセットアップ成功率)

通信事業者が継続的に監視すべきKPIの1つに、CSSR分析があります。迅速な対応能力があれば、収益機会の損失と、顧客満足度の低下を防止できます。多くの場合、特定の値の落ち込みがネットワークエラーによるものか、利益目的でネットワークを悪用(例:通話の大量発信、番号スキャンなど)している利用者によるものかははっきりしません。しかしElastic Stackを使えば、状況はずっとシンプルになります。通信事業者は、通話試行数における、発信者数と受信者数の分布を簡単に確認できます。オペレーションチームは、個々の番号や、番号のグループで絞り込んで、すみやかに仮説を検証できます。運用現場に機械学習の異常検知を活用して、精度を妥協することなく、利用者のトラフィックにおける異常なスパイクを発見することも可能です。 

下の例では、SS7監視システムが生成するASN1通話データ記録から、データを直接デコードしています。Ingestパイプラインには追加スクリプティングが含まれ、エンリッチ(SPC名、IP名)に使用されています。 

発信者が存在し、かつ受信者に着信の通知があった場合を“正常”と仮定します。

下の図は、4つの異なる統計値を示しています。

  • All:通話の受信データ記録の数
  • distinctCalling:発信者側のユニークイベント数
  • distinctCalled:受信者側のユニークイベント数
  • Attempts:通話試行数

わずか数分ではじめる

本記事では、従来サイロ化されていたデータを一元化し、Elastic Stackのパワフルな分析で、通信事業の分野にすばやくバリューをもたらすElasticオブザーバビリティのメリットをご紹介しました。 音声トラフィックデータの可視化は、無料のElasticsearch Service on Elastic Cloudトライアルを利用してはじめることができます。

ドイツテレコム社のElasticプロジェクトについてさらにご興味がおありの方は、2018年にミュンヘンで開催されたElastic{ON}イベントのトーク、 「Smart Tracing at Deutsche Telekom - Revealing the secrets behind modern networks with the Elastic Stack」(ドイツテレコム社のスマートトレーシング - Elastic Stackが明かすモダンネットワークの秘密)も併せてぜひご覧ください。