を14日間無料で試してみる
700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。
昨今は、デジタル体験の実現に高い優先度を置いている業界が多くあります。
インシデント発生時に素早く対応し解決できれば、その企業のシステムの信頼性が高まり、顧客の支持を多く獲得できる可能性が高まるでしょう。
反対に、インシデント対応が遅れた場合には、さらに深刻な問題へと発展しかねません。
このような事態を回避するには、インシデント管理システムで適切なメトリクスをモニタリングしたり、KPIを設定したりするのが効果的です。
そのためには、モニタリングすべきメトリクスの理解を深めることも重要です。
この記事では、インシデント管理におけるメトリクスのモニタリングや、メトリクスと混同されやすいKPIについて解説します。
目次
「メトリクス」とは、システムと人材のパフォーマンスをモニタリングする際に使用される、さまざまなデータの測定値です。ビジネスは、これらの複数のメトリクスを追跡することで、SLA・目標・タイムラインを達成しているかを判断できます。
そして「KPI」は「重要業績評価指数」ともいい、目標達成に向けたプロセスの達成状況を分析・評価するための指標です。KPIを設定すれば、プロセスの可視化や評価基準の統一などに役立ちます。
メトリクスは、KPIのようにすべてが重要指数として扱われるわけではありません。つまり、KPIはメトリクスのなかの一つといえますが、メトリクスがすべてKPIになるとは限りません。
インシデント管理における一般的なプロセスなどを再確認したい場合は、こちらの記事もご覧ください。
関連記事:インシデント管理とは?〜システム障害を未然に防ごう〜
ここでは、インシデント管理に役立つメトリクスTOP10を紹介します。
これらの数値について理解すると、KPIを設定する際に役立つでしょう。
デジタル化が進むなかで、インシデントを完全に防ぐことは難しいでしょう。このような場合、モニタリングしたメトリクスのうち、どれがKPIになり得るのか、どのKPIが製品・システムの成功に関与連するのかを知ることで、機能性の維持につながります。
さらに、自動化が進み学習が蓄積されることで、インシデント管理プロセスの効率向上も期待できるでしょう。KPIを適切にモニタリングすると、システム内の具体的な傾向や弱点を見つけやすくなり、今後起こり得る大規模なサービス停止の回避にもつながる可能性があります。
しかし、大規模で複雑性を極める現代のITシステムとインフラストラクチャについて、全体の状況を自力のみで把握することはほぼ不可能でしょう。
「連続稼働時間」や「インシデントチケット1件あたりのコスト」など、無数のメトリクスを収集・分析するためのツールは数多くあります。複雑なインフラストラクチャで収集されたあらゆるデータからアラートノイズをすべて排除するとなると、非常に多くの時間を消費し、結果としてインシデントの解決を遅延させることになりかねません。
インシデント管理の目標は、できる限り迅速にインシデントを検知・解決し、エンドユーザーへの影響を抑えることです。ここで説明した例の場合、警告サインを早く検知できれば、サービス停止を避けられるかもしれません。
直面する課題や顧客から寄せられる期待は、チームによってさまざまです。それを踏まえながらも、サービス・製品の信頼性を維持するためには、自社システムのパフォーマンスやインシデント管理の効率を考慮することが重要です。
重要メトリクスを使ってチームのパフォーマンスを追跡・モニタリングするなら「PagerDuty」の導入がおすすめです。
PagerDutyの導入により、問題や弱点が見えやすくなります。さらに、継続的なインシデント管理の成熟度向上が期待でき、想定外の機能停止やダウンタイムの防止につながるでしょう。
またPagerDutyは、モニタリングツールやコラボレーション、チケット管理ツールなど、700以上の外部サービスと連携することが可能です。
デジタル体験を提供するビジネスでインシデント発生時に迅速な対応ができなければ、深刻な問題に発展する可能性があります。想定外の事態を回避するためにも、メトリクスのモニタリングとKPIの設定が重要です。
そのためには、まずどのようなメトリクスがあり、どのようなことに役立つのかを理解する必要があるでしょう。その上で、数あるメトリクスから、自社ビジネスに適したKPIを選定することが大切です。
近年では、大規模で複雑なITシステムや、インフラストラクチャによるサービス提供は珍しくありません。そのため、無数のメトリクスを収集・分析するツールのみでは、アラートノイズの排除に時間を要し、エンドユーザーに影響を 及ぼす可能性があります。
このような課題を解決するためには、700以上の外部サービスと連携できる「PagerDuty」がおすすめです。効率的であり、信頼性維持に効果的なインシデント管理を行なうためにも、導入を検討してみてはいかがでしょうか。
700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。
目次