を14日間無料で試してみる
700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。
ITサービスの重要性がますます高まる現代では、インシデントをいち早く検出し、適切な対応へとエスカレーションして回復させることが必要です。
そこでITILでは、システムイベントのすべてを検知・収集し、ITサービス全体の状況を俯瞰して捉える管理プロセスを定め、ツールを用いて統合管理することを推奨しています。
この記事では、ITILに準拠したイベント管理がどのように対応時間の短縮を実現するのか、管理の流れやインシデント管理との統合について解説します。
目次
ITILにおけるイベント管理とは、すべてのイベントおよび手動対応を監視することです。
イベント管理は、大きく以下の3つの目的で行なわれます。
ITILに基づいてイベント管理を行なえば、インシデントにつながる異常イベントを早期発見できます。適切な対応へとオーケストレーションすることで、重大インシデントの予防やサービスの可用性向上を実現できるでしょう。
すべてのイベントを監視してインシデント管理を行なうには、大量のイベントから、シグナルを見つけ出すことが必要です。しかし、限られたリソースのなかでノイズからシグナルを判別し、優先順位を手動でつけることはほぼ不可能でしょう。
担当者の負荷を軽減し迅速にトリアージするには、イベント管理とインシデント管理を1つのプラットフォームに統合するのが有効です。特に、人間に主眼を置いたインシデント対応と密接に統合されている場合に、高い負荷軽減効果を発揮します。
なお、運用データモデル内のオブジェクトであるイベント、アラート、インシデント、通知は、以下のように定義されます。
イベント:ITインフラストラクチャやサービスで発生する検知可能な出来事のことです。ユーザーのログイン、最近のデプロイ情報、サーバーメンテナンス完了など、発生していることに手を加えず、そのまま伝えます。
アラート:モニタリングツール(またはその他ツール)に含まれ、定義された閾値や条件を超過した際に生成される警告です。
インシデント:ビジネスや顧客に影響を与えるシステムの問題を指します。対応者による作業や修繕措置が必要です。企業が報告すべき内容であり、ポストモーテム(事後分析のこと。ポストインシデントレビューともいいます)のためのデータハブとしても機能します。1件のインシデントには、1件以上のアラートやイベントが発生します。
通知:メッセージのことです。一般的には、電話やプッシュ通知、テキストメッセージ、メールなどの形式で発信され、問題が発生したことをユーザーに伝えます。
イベントやアラート(例えば、ディスク使用量が60%に達した場合など)は、それ自体が顧客に影響を与えるものではないため、必ずしもすぐに対応者に通知されるわけではありません。
関連する複数のアラート(ディスク使用率60%、80%、空き容量なし)は、サービス品質が低下し顧客に影響がおよぶ可能性が強く示唆されるものとして、1つのインシデントにグループ化されます。
TILにおけるイベント管理は、次の5つのステージで進められます。
特定のモニタリングツールによりイベント通知が生成され、検知されます。イベント分類は、以下の3つが推奨されます。
イベント通知は、ログファイルとして記録されるか、イベントまたはシステム管理ソリューションに伝達されます。
さまざまなモニタリングツールから、すべてのイベントを単一のエンドポイントに送信し、プログラムを使ってイベントの動作を管理します。
イベントペイロードに基づき、どのチーム・サービスにアラートを送信するかを判断します。
システムを使用して重複したアラートやインシデントを、自動的かつ容易に排除して、不要なノイズを抑制します。
情報共有メッセージなどのアクション不要なイベントは、対応者に通知する必要がありません。ただし、検証分析のために記録します。
注記、ランブック、リンク、その他の詳細情報が自動的にインシデントに捕捉されることで、迅速なインシデント解決につながります。
適応型機械学習とルールに基づくアプローチを活用して、関連イベントとアラートを適切なコンテキストと一緒に、実践的なインシデントにグループ化します。対応者のノイズを減らし、解決プロセスを合理化するために重要です。
インシデントが、適切なコンテキストを備えて対応しやすいフォーマットに調整されたら、対応者は対応に取り掛かります。重大度に応じて、通知やエスカレーションをダイナミックに実施できると理想的です。
さまざまなインシデントシナリオに備え、対応者の増員や経営陣・ステークホルダーへの通知など、模範的な対応アクションを事前に定義しておくとよいでしょう。
イベントやインシデントが解決またはクローズされると、それに続くアクションも含め、中央のイベント管理やシステム管理ソリューションに記録されます。これにより、正確な報告が可能になります。
ノイズの抑制、インシデントや通知の削減、平均特定時間または平均解決時間の短縮などといったメトリクスを追跡し、ITILイベント管理プロセスの改善状況を把握しましょう。
システムで発生するすべてのイベントを手動で確認・分析し、発生し得るイベントのシナリオのためにルールを作成するのは、人間の力だけでは不可能でしょう。
同時に、イベントに適切なアクションをリアルタイムで実施することの重要性は、これまでにないほど高まっています。
大規模なイベントを管理するためにも、イベント管理の自動化導入は不可欠です。
急速に複雑化が進む状況に対応するために、繰り返し発生する手作業を自動化して、より重要な活動にリソースを注ぎましょう。
「PagerDuty」では、重大性フィールドに基づいてアラートを生成できます。
トリガーモニタリングツールから直接提供することも、「PagerDutyイベントオーケストレーション」により定義が可能です。
以下のように定義されたペイロードに基づき、インシデントの緊急度に応じた通知動作が行なわれます。
アラートの重大度 | 説明 | デフォルトのインシデント緊急度 |
クリティカル | システムの主要アプリケーション内の故障。 | 高 |
エラー | 運用に影響する致命的エラー。ただし、サービスやアプリケーションへの影響はなし。 | 高 |
警告 | 対応しなければエラーが発生する可能性がある。 | 低 |
情報 | 通常の運用に関するメッセージ。対応不要。 | 低(インシデントに付随的な場合、またはサプレッションされた場合) |
「PagerDuty」には、イベント管理の自動化をサポートする複数の機能が搭載されています。
「PagerDuty AIOps」は、無数に発生するノイズをAIにより自動で縮減し、人間が本当に対処しなければいけないアラート(インシデント)のみを抽出することで、トリアージを迅速化します。
「PagerDuty Automation」は、インシデントが発生した際の対応として、人間が手動で行なう必要のないサーバー再起動や定型的なコード処理などを、自動プロセスを組んで実行します。
また「PagerDuty Copilot」では、AIOpsとは異なる生成AIを用いており、現在起きているインシデントの概要について自動回答が得られます。これにより、進捗状況の報告や対応を迅速化できるでしょう。ポストモーテムの起草や自動化ジョブのオーサリングにも対応し、問題発生から解決までに発生する反復作業を軽減することが可能です。
自動化は、イベント管理で迅速な対応をする際に役立ちますが、適切に活用できないと期待する効果が得られないでしょう。
自動化を導入する際には、次の2点に注意してください。
自動化ツールの導入では、ルールを容易に作成できることが重要です。
さらに、複雑な企業のニーズを管理するには多くのイベントタイプに対処し、カスタマイズ可能なエンリッチメント化、重複の排除、アラートサプレッション、通知に対応している必要があります。
自動化を導入する際には、設定の保存場所について配慮しましょう。
中央の運用チームが、あらゆるイベントのシナリオ用に特定のルールを作成しようとするとサイロ化が進み、システムは鈍重化します。そうなると、システム設定に携わるオペレーションアナリストは、対応者やアプリケーションに何が起きているのか把握できず、対応者へ通知する際に、重要な情報が不足してしまうこともあるでしょう。
イベント管理に必要なのは、人的リソースを削減し、中枢的に機能するチームと地理的に分散しているチームの両者が、同じシステムで円滑に作業できるソリューションです。
加えて、問題発生時には完全なコンテキストを提供できるようにすることも求められます。
従来のアプローチによるイベント管理でも、ノイズの抑制は可能ですが、設定とメンテナンスに非常に高いコストと時間を要します。
また、関連する人的コンテキストと過去の修復情報をシステムデータに統合することができず、常に変化するインフラストラクチャにうまく対応できません。
「PagerDuty」は、イベント管理とインシデント管理を統合し、迅速なインシデント対応を実現します。
「PagerDuty AIOps」は、システムデータに手動対応のパターンを組み込んだ、イベント管理と自動化のための唯一無二のソリューションです。AIによってノイズを自動で軽減し、人的対応が必要なインシデントのみを抽出します。
14日間の無料トライアルを用意していますので、ぜひ一度体験してください。
また「PagerDuty Automation」では、インシデント発生時に自動プロセスを実行させることで、シグナル発生からアクション発動までの時間を短縮します。
「PagerDuty」に関する資料や導入事例は、以下のページからダウンロードいただけます。
https://www.pagerduty.co.jp/resources/
また、14日間の無料トライアルは、以下のページからご利用いただけます。
https://ja.pagerduty.com/sign-up/
700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。
目次