トップ → Blog → 【PagerDutyが実践!】大規模システム障害対応ベストプラクティス解説〜発生前・発生中・発生後、あなたはどうする？〜

ベストプラクティス・TIPs

【PagerDutyが実践!】大規模システム障害対応ベストプラクティス解説〜発生前・発生中・発生後、あなたはどうする？〜

2024.08.08更新

2024年7月19日、史上最大の世界的システム障害が発生し、全世界の企業・人々に多大な影響が及びました。

ソフトウェアは完璧ではありません。いずれどこかで同規模の問題が発生するでしょう。DXが進む世の中では、「障害が発生するかどうか」ではなく、「いつ発生するか」が問題です。IT インシデントがますます複雑化し、頻発する中で、1秒1秒が勝負の分かれ目となる状況で、みなさんの組織は本当に対応と復旧の準備ができているでしょうか？

PagerDuty では、企業がシステムを安定稼働させるためのベストプラクティスをまとめました。一緒に見ていきましょう。

企業がシステム障害発生前にすべきこと

1. 重大インシデントプロセスを文書化し、実践する
障害対応チームがオンコール体制に慣れ、インシデント管理プロセスを熟知し、他のチームとどう連携するかを把握しているか確認しましょう。重大インシデントを解決するための内部プロセスを、模擬シナリオを使って練習することをお勧めします。

ヒント：素早いチーム連携のためにインシデント管理ソリューションを活用し、オンコール準備レポートでユーザーの応答性をチェックしてみてください。

2. 力を注ぐべきポイントを見極める
すべてのインシデントに手動で対応していませんか？それとも問題が起きる前に予防策を講じていますか？まずは、自社の運用成熟度がどの段階にあるか把握することが大切です。

ヒント：PagerDutyの運用成熟度レポートを確認して、「システム障害に対して受け身の対応」から「予防的なインシデント対応」へと社内体制をシフトしましょう。自動化の導入やチーム効率の向上など、具体的な改善策を見つけて実行し、運用の回復力を高めていくことができます。

システム障害発生中にすべきこと

3. インシデントトリアージ中の状況把握力を高める
対応チームが、インシデントの通知を受けた瞬間から必要な情報にアクセスできるようにしましょう。過去の類似インシデントや関連する問題を素早く特定し、「どこでエラーが発生しているのか？何が変わったのか？」という核心的な質問に答えられる情報を、対応者が即座に得られる環境を整えることが重要です。

ヒント：PagerDuty の AIOps ルート原因分析機能を使えば、過去の関連インシデントや異常値から重要な洞察を瞬時に得られます。また、変更イベント機能で最近のサービス変更を確認できます（統計によると、インシデントの80%はソフトウェアデプロイメントなどの変更が原因です）。

4. インシデント対応チームの役割を明確にする
対応チームには、インシデントコマンダー、顧客リエゾン、記録係など、明確に定義された役割が必要です。役割が確立されていれば、責任が明確になり、説明責任が生まれ、より焦点を絞ったインシデント対応が可能になります。

ヒント：インシデント管理プラットフォームで、重大インシデント時に割り当てられるインシデントの役割をあらかじめ定義しておくと便利です。

5. 診断を加速する自動化を導入する
チームを「消火活動」モードから解放しましょう。日常的なタスクやインシデント対応プロセスを自動化して、手作業の負担を減らします。アラートノイズを減らせば、インシデント対応中の中断も少なくなり、より迅速な解決につながります。

ヒント：AIOps とインシデント管理ソリューションを活用すれば、イベント管理とトリアージのスピードアップが図れます。さらに細かい制御が必要な場合は、PagerDuty の Runbook 自動化で、特定のイベントに対して自動アクションを設定できます。

2024年7月19日の史上最大のIT障害時、PagerDutyのAIOpsとインシデント管理を利用しているお客様では、自動化機能の実行数が1425%も増加しました。これにより、ルーチンタスクを自動化し、インシデント対応を大幅にスケールアップすることができました。

6. 顧客への情報提供を欠かさない
カスタマーサポートとサービスチームが、エンジニアリングチームからリアルタイムデータと双方向コミュニケーションを受け取れるようにしましょう。この連携により、全チームが一丸となって行動し、障害時でも顧客体験を最優先に、問題をより迅速に解決できるようになります。

ヒント：Customer Service Opsソリューションを使えば、ワークフローのカスタマイズや、あらゆるツールからのデータ統合が可能になり、カスタマーサポートチームにITインフラの最新状況を即座に提供できます。

7. ステークホルダーとのコミュニケーション手順を確立する
システム障害時に社内のステークホルダーとどうコミュニケーションを取るか、明確な手順を作っておきましょう。状況の更新をどう伝えるか、詳しい情報をどこで得られるかなど、具体的に決めておくことが大切です。

ヒント：ステークホルダーサブスクリプション機能を使えば、ステークホルダーに必要なビジネスサービスやインシデント情報を自動で届けられます。また、ステータスページを活用すれば、社内外の関係者に適切な情報を提供できます。

システム障害発生後にすべきこと

8. インシデント後のレビュープロセスを確立する
システム障害経験を無駄にしないことが大切です。将来のインシデント対応力を強化し、継続的に改善を進めるためのフィードバックループを作るため、明確なインシデント対応完了後のレビュープロセスを確立しましょう。

ヒント：インシデント後レビューを最大限に活用する方法については、インシデント後振り返りガイドをチェックしてみてください。具体的な推奨事項が詳しく解説されています。

PagerDutyが実践する障害対応ベストプラクティスが重要な理由

2024年7月19日、PagerDutyのAIOpsとインシデント管理を利用しているユーザーは、平均して132件ものインシデントアクションを回避し、1日で1621時間以上もの対応時間を節約できました。この数字が、私たちのソリューションの力を物語っています。

先日開催されたPagerDuty on Tour TOKYO 2024では、PagerDutyの最高製品開発責任者であるJeff Hausmanが、AIと自動化の時代におけるオペレーショナル・エクセレンスについてプレゼンテーションを行いました。Jeffは「運用の溝を越える」というコンセプトを提示し、非効率で高コストなIT運用から、自動化された効率的な運用への移行の必要性を解説しました。

8/20(火)に、このプレゼンテーション内容について、PagerDutyの日本メンバーと共に振り返るウェビナーを開催いたします。システム運用の最前線にいる方、IT部門のリーダーの皆様。AI時代の運用戦略を学び、競争力を高める絶好のチャンスをお見逃しなく。奮ってお申し込みください！

【企業はシステム障害にいかに備えるか】
日本語で詳説「レガシーシステムを運用の溝から救い出す秘訣」〜AIと自動化が実現する企業のオペレーショナル・エクセレンス〜

を14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

この記事の著者

草間一人

PagerDuty
Product Evangelist
プロダクトエヴァンジェリスト

草間一人

PagerDuty
Product Evangelist
プロダクトエヴァンジェリスト

通信事業者でプラットフォームエンジニアを務めたのを皮切りに、いくつかの外資系企業でプロフェッショナルサービスやプリセールスエンジニアとしてクラウドネイティブやプラットフォーム製品に携わるなど、10年以上さまざまな形でプラットフォームに関与している。2023年11月より現職。一般社団法人クラウドネイティブイノベーターズ協会代表理事。Platform Engineering Meetupオーガナイザー。

SNS

Blog

Cloud Penguins

【PagerDutyが実践!】大規模システム障害対応ベストプラクティス解説〜発生前・発生中・発生後、あなたはどうする？〜

企業がシステム障害発生前にすべきこと

システム障害発生中にすべきこと

システム障害発生後にすべきこと

PagerDutyが実践する障害対応ベストプラクティスが重要な理由

を14日間無料で試してみる

この記事の著者

関連ブログ記事

インシデント管理とは？〜システム障害を未然に防ごう〜

2024年7月の世界的な大規模システム障害から学ぶこと
〜企業が留意すべき未来に向けたベストプラクティス〜

ITリスク管理 (マネジメント)の必要性を解説!
〜障害発生に備える必須対策〜

2024年7月の世界的な大規模システム障害から学ぶこと
〜企業が留意すべき未来に向けたベストプラクティス〜

障害対応入門記事まとめ
〜システム運用担当者になったらまず読むべき記事を厳選!〜

「PagerDuty on Tour TOKYO 2024」東京・8月6日(火)開催決定
〜システム運用に携わる全ての人に贈るテクニカルカンファレンス〜

インシデント管理とは？〜システム障害を未然に防ごう〜

オンコール対応とは？
〜現場担当者が語るオンコール対応の不安解消方法を解説!～

【PagerDutyが実践!】大規模システム障害対応ベストプラクティス解説〜発生前・発生中・発生後、あなたはどうする？〜

企業がシステム障害発生前にすべきこと

システム障害発生中にすべきこと

システム障害発生後にすべきこと

PagerDutyが実践する障害対応ベストプラクティスが重要な理由

<img src="/images/pd_logo_white.svg" alt="PagerDuty" data-eio="l">を14日間無料で試してみる

この記事の著者

<img src="/images/blog/ic_article.svg" alt="関連ブログ記事" data-eio="l">関連ブログ記事

<img src="/images/blog/ic_article.svg" alt="関連コンテンツ" data-eio="l">関連コンテンツ

を14日間無料で試してみる

関連ブログ記事

関連コンテンツ