NTTドコモ様 事例
NTTドコモのシステムにおける
「DevOps推進と運用効率化」
NTTドコモが提供するサービスのシステム開発・運用では積極的にDevOpsを推進しています。
「オブザーバビリティの強化、PagerDutyの導入」により初動対応の迅速化や運用の効率化を実現。
サービスの価値を高める活動に多くの時間を割けるようになった事例をご紹介!→ PagerDutyの資料をみる(無料)
AI技術の急激な進歩により、Webサービスの運営にもAIを取り入れる企業が増えました。それとともにシステム運用における複雑性やリスクが向上し、インシデント発生件数も増えています。(ご参考:AI採用競争によりエンタープライズ企業のインシデントが16%増加と発表)
複雑なAI技術によるリスクが伴うなか、Webサービスを安定して稼働させるためには、システムやサービスに異常値が生じた際にはいち早く検知し対処していかなければなりません。
しかし、異常が生じた際のアラートが大量に発生するとエンジニアの業務負担は大きくなります。業務負担が大きくなることで、本当にエンジニアの手が必要な作業が見送られてしまい、システムやサービスの運用に大きな支障や遅延を来してしまうでしょう。
そこで本記事では、「インシデント管理ツールによる異常検知」を導入しない場合のリスクを解説します。また、「インシデント管理ツールで異常検知を効率化するメリット」や「実際の事例」なども紹介します。
インシデント管理ツールによる異常検知を導入しようと考えている方はぜひ参考にしてみてください。
目次
「異常検知」とは、通常モニタリング時の数値から見たときの異常値を検知することです。通常と異なる状態の発生を早急に検知・通知することで、システム障害を未然に防ぐことに役立ちます。
インシデントを一元管理するツールであるPageDutyでは、さまざまな監視ツールやアプリケーションと連携してインシデントの通知や運用フローの最適化を行なっています。
エンジニアの対応が必要な異常を検知した際には早急に通知が届く仕組みになっており、通知の種類はメール・電話・SMS/プッシュ通知などです。
インシデント管理ツールによる異常検知でシステム障害を未然に防げば、事後対応に追われる時間も削減できるため、エンジニアの業務負担が格段に減らせます。そのため、エンジニアは企業のビジネス創造に本当に必要な作業へ時間を充てられるのです。
異常検知をつねに適切に行なえる体制を整えていないと、さまざまなリスクを抱えることになります。ここでは、異常検知の体制を整えないことによるリスクを紹介します。
システムやサービスの運用において、エラーの発生は避けられません。通常時と異なるエラーを予測できなかった場合、エラーが発生したあとの対処に時間を要することになります。その結果、システム障害の規模が拡大し、解決までの間ユーザーに負担をかけてしまうこともあります。
システムやサービスが一定期間使えなくなることは、ユーザーに大きなストレスを与えます。結果として、企業イメージの悪化・信頼の失墜につながり、利益が悪化する可能性も高くなるでしょう。
このように、システムやサービスを顧客に提供する企業にとって、異常検知の精度や速度は企業イメージや利益に直結します。だからこそ、エラーとなる異常値を早期予測・発見し対処することは、システム障害の拡大を防ぐ鍵といえます。
人の感覚・技術に頼った異常検知では、体調や集中力にムラがあり、異常検知の精度にも影響が生じる可能性があります。精度にムラが生じてミスが残ってしまえば、いずれ大規模なシステム障害を被ることになるかもしれません。これは、人件費が莫大にかかる事態にもつながります。
最悪の場合、顧客のシステムやサービス利用を停止せざるを得ず、企業の利益やイメージに甚大な被害を与えてしまう可能性もゼロとはいえません。
その点、インシデント管理ツールで一元管理させることムラなく精度の高い異常検知が常時行ないやすくなるほか、より必要な業務に従業員の時間と労力をかけられます。
ここでは、異常検知を行なうことにより実現できる効果を3つ紹介します。
異常検知は、通常モニタリング時と異なる異常値を検知するだけでなく、過去のデータをもとにして異常の予測が可能です。
インシデント管理ツールによって過去に発報されたアラートが自動的にグループ化されるため、過去の履歴と機械学習からシステム上で何らかの問題が起きている状況を想定できます。
想定した問題の中からエンジニアの対応が必要なものを抽出し早期にアラートを出してくれるため、重大なシステム障害が起きてしまう前に対応でき、システム障害を未然に防げるのです。
先ほどの「システム障害を未然に防ぐこと」が可能になれば、システム障害が発生した際のアラートを削減することができます。
異常検知のアラートが大量に届くと、システムの運用管理者にとって大きなストレスと負担になります。重要ではないアラートへの対応に追われて、ほかの重要な作業に手が回せなくなることもあるでしょう。
結果、大規模なシステム障害につながる問題を見逃せば、深刻な事態に発展しかねません。
インシデント管理ツールでは、大量なアラートの中からエンジニアの対応が必要なアラートだけを、過去のデータをもとに抽出可能です。そのため、不必要なアラートを削減でき、エンジニアの業務負担が減ります。
このようにシステム障害時のアラートが減ることで、エンジニアの手が本当に必要な業務の進行を妨げることも減らせるのです。
検査や監視において、人的ミスを完全に防ぐことは困難です。集中力や技術にムラが生じて起こした小さなミスを発端に、重大な故障や作業の停止を起こしてしまう可能性も考えられます。
インシデント管理ツールで異常検知を行なえば、機械学習したものをもとにシステムの検査・監視ができます。人のように集中力や技術の個人差もなく、クオリティにムラが生じにくくなるでしょう。
インシデント管理ツールによる異常検知を導入する際は、システムの動作のなかで何が正常で何が異常なのか、それぞれの定義を初期段階で明確にしておきましょう。
正常な動作と異常な動作それぞれの判断基準を明確にしておかないと、インシデント管理ツールでは精度の高い判断ができません。正確に機械学習をさせるためにも、まずは導入初期段階から正常・異常の定義を明確にすることが大切です。
また、ひとえに「異常」といっても、ハードウェアの障害によるものやヒューマンエラーによるもの、外部からのウイルス侵入によるものなど、異常の種類は原因によってさまざまです。
システム障害を起こす原因ごとに「システムがどのような動作をしたら“異常”と見なすのか」を細かく定義して機械学習させておくことで、より精度の高い異常検知ができます。
さらに、AI学習用データセットの精度の高さも重要です。異常検知の邪魔をしないためには、関係のない情報であるノイズをあらかじめ除去しておきましょう。
異常検知を導入するシステムや設備・機械などへの理解を深めておくことも重要です。精度が高く賢いAIでも、できること・できないことがあります。なかには人の手で行なったほうが高い精度を発揮する作業もあるでしょう。
作業工程のどこからどこまでをインシデント管理ツールに頼るのか、適切に範囲を決定するためにも、システム・設備・機械自体の理解をあらかじめ現場の人たち同士で深めておくことが大切です。
ここでは、異常検知を「インシデント管理ツール」で効率化するメリットを3つ紹介します。
インシデント管理ツールで異常検知を行なうと、実際に異常が発生する前に早期警告が可能です。
システム障害を未然に防ぐためには「初動対応の高速化」が大切です。初動のうちから異常に対する対策を講じれば、問題が進行しシステムに障害をきたしてしまう前に対応できます。大きなシステム障害に発展して従業員の負担が大きくなる事態も防ぎやすくなるでしょう。
PagerDutyには、異常検知の初動対応を高速化できる製品があります。世界中で20,000社を超える企業に選ばれており、IT環境が複雑化する近年においても多くの企業のシステムを守っています。
マニュアル作業による異常検知では、エンジニアの集中力や技術の差などによってプロセスの誤りや遅延が発生してしまうことが多々あります。
異常検知をインシデント管理ツールで行なえば、一定のクオリティをつねに担保できるため、プロセスの誤りや遅延の減少が実現しやすくなるでしょう。その結果、共同作業の連携もスムーズになり、管理フローの安定化にもつながります。
「インシデント管理ツール」のメリットは異常の早期発見・改善だけではありません。従業員間で作業の進行度合いなども共有できるのは、インシデント管理ツールの大きな利点です。
分類別にインシデントを理解できるため、解決策の実行・対策の立案などもしやすくなるでしょう。こうしたナレッジの共有は、効率化にもつながります。2回目以降の異常検知の対応もスムーズになるでしょう。
ここでは、PagerDutyによって異常検知を導入した事例を紹介します。
株式会社NTTドコモでは、PagerDutyの製品を導入することによってアラート件数の大幅削減に成功した事例があります。
導入前は異常検知のアラートが集約・精査されておらず、アラートの確認や対応に多大な時間を要していました。また、システム監視を担うNOCへの手順書作成が毎回必要であり、手間がかかっていたのも問題点となっていました。
そこでPagerDutyの製品を導入してアラートの集約と精査を可能にし、NOCに頼らない運用監視に移行しました。
その結果、導入前には月間10,000件あったアラートを、1,000件まで削減することに成功しました。
導入事例:https://www.pagerduty.co.jp/customers/docomo/
ミールキットや有機野菜の宅配・販売サービスを行なうオイシックス・ラ・大地株式会社では、PagerDutyの製品導入によって作業の効率化やコスト削減、エンジニアの負担軽減に成功した事例があります。
導入前は、インシデント対応をMSP(マネージドサービスプロバイダ)企業に委託していました。そのなかで、インシデントの検知速度が遅いことや柔軟な対応ができないこと、エンジニアの負荷が減らない状況などさまざまな課題がありました。
そこでPagerDutyを導入した結果、MTTA(平均確認時間)が約30~50%改善。さらに、コスト削減やエンジニアの負荷軽減につなげました。
導入事例:https://www.pagerduty.co.jp/customers/oisixradaichi/
クラウドネイティブやマルチクラウド、複雑なIT環境下などでは、異常値の発生分母となるアラートの増加が頻繁に起きやすい傾向があります。異常値の発生分母が増えれば、必然的に分子となる「異常(値)」も増えます。
ただし、マニュアル作業での異常検知では、つねに一定のクオリティで対応することが難しく、抜け漏れが発生する可能性も高いのが難点です。また、通常業務やインシデント対応に追われ、エンジニア自身の負担も増える一方でしょう。
異常検知をつねに適切に行なえる体制を整えれば、エンジニアの負荷軽減や重大なインシデントの見逃しを最大限防げるようになるでしょう。また、システム障害による企業のイメージや利益悪化を未然に防ぐことにもつながる可能性があります。
PagerDutyでは、世界で20,000社以上、日本国内でも400社を超える多くの企業に選ばれているインシデント管理ツールを運用しています。そのうちの一つであるPagerDutyの「AIOps」では、PagerDutyのAIが膨大なアラートのなかから“人が対応しなければいけない「異常」”を自動で検知・トリアージします。
異常検知の対応をスピーディーにしてシステム障害を防止・早期対応し、企業のイメージや利益を守るために、PagerDutyの製品をぜひ一度お試しください。
システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜
https://www.pagerduty.co.jp/blog/what-is-system-error
「SRE(サイト信頼性エンジニアリング)」とは?〜DevOpsとの関係・実践ポイントを解説〜https://www.pagerduty.co.jp/blog/what-is-sre/
NTTドコモが提供するサービスのシステム開発・運用では積極的にDevOpsを推進しています。
「オブザーバビリティの強化、PagerDutyの導入」により初動対応の迅速化や運用の効率化を実現。
サービスの価値を高める活動に多くの時間を割けるようになった事例をご紹介!→ PagerDutyの資料をみる(無料)
目次