2025年04月24日(木)12:00〜開催
日本語で詳説
「人間とAIの協働による運用革命」
〜AIと自動化で実現する次世代運用〜
「PagerDuty on Tour TOKYO 2025」で大好評を博したセッション「あなたの運用は未来に対応できていますか?AIと自動化で実現する次世代運用」および 「セルフサービスで実現する自動化のオーケストレーション」を振り返ります。
インシデントが発生した際、その原因を特定して再発を防ぐことは、ITエンジニアにとって大きな課題です。
この課題の対処法として、ポストモーテムのプロセスが有効かもしれません。
ポストモーテムとは、システムにトラブルや障害が発生したあとに行なう事後分析のことです。
事後分析を行なうことで、インシデントの原因を調査し、どのようにして問題が発生したのかを調べます。そして、分析結果をもとに再発防止策を策定して、将来同様のインシデントを防ぐための改善策を講じます。
この記事では、ポストモーテムの重要性とその具体的な実施方法について解説します。
また、効率的なインシデント対応を行なうためのポイントもご紹介します。
目次
ポストモーテムとは、ITシステムやサービスでトラブルが発生したあとに、その原因・対応策・再発防止策を考えるプロセスのことです。
同じトラブルを繰り返さないためには、原因をはっきりさせて対策を講じなくてはいけません。
チームはインシデント対応の最中、システムやサービスの復旧に全力を注いでいます。そのため、最適な対処方法を考えたり、トラブルの原因を詳しく調べたりする余裕はありません。
そこで重要になるのがポストモーテムです。
問題が解決して落ち着いたタイミングでポストモーテムを行ない、その対応を振り返ります。
ポストモーテムを行なわなければ、何が正しかったか、どこを改善できるか、そして同じミスをどう避けるかがわかりません。
詳細で正確なポストモーテムを実施して、そのメリットを最大限活用しましょう。
企業によってポストモーテムの呼び方はそれぞれ異なります。
例えば、以下のような呼び方があります。
ポストモーテムの手法は企業ごとに異なりますが、その目的は一貫しています。
それは、事後レポートの作成を通じて、問題の根本原因を洗い出し、効果的な解決策を提示することです。
事後レポートであるポストモーテムレポートには、次の内容を盛り込みましょう。
具体的なステップは以下のとおりです。
ポストモーテムは、インシデント対応の直後に実施するのが最も効果的です。
これは、対応者がまだインシデントの詳細を鮮明に覚えているうちに行なうことで、より正確に内容を振り返るためです。
また、インシデントの深刻度が低い場合や誤アラートであっても、ポストモーテムを行なうほうがよいでしょう。
素早く復旧したインシデントでも、何が有効で、何が有効ではなかったかを振り返る良い機会となります。
ポストモーテムをインシデント対応プロセスの最後のステップとして位置付け、解決直後に実施することで効果的に学習ができるでしょう。
ポストモーテムで重要なのは、個人のミスを指摘することではなく、システムやプロセスの問題点を洗い出すことです。
誰のせいで失敗が起きたのかではなく、どのように失敗が起きたのかを追求することで、問題への理解が深まるでしょう。
そのためには、人を非難しないポストモーテムを実施することが必要です。
ポストモーテムの仕組みを作るうえで、注意すべきポイントは以下のとおりです。
適切なポストモーテムを行なうことで、エンジニアは責められる心配をせずに、起きた問題を客観的に見直せるでしょう。
人は失敗した人を責めたくなるものですが、それでは問題の本質を見失うことがあります。
そのため、ポストモーテムをチーム全員が自由に話し合える安全な場所にすることが大切です。
「PagerDuty」には、ポストモーテムの実施に役立つ、幅広い機能が備わっています。
例えば、インシデントタイムラインの記録、詳細なインシデントレポートの自動生成、学習と改善のサポート、パフォーマンス分析のレポート機能などです。
「PagerDuty」の活用により、企業全体の信頼性を向上させ、迅速かつ効果的なインシデント対応が可能になります。
「PagerDuty」の資料や導入事例は、以下のページからダウンロードいただけます。
https://www.pagerduty.co.jp/resources
ポストモーテムを円滑に進めるためには、責任者であるポストモーテムオーナーの選定が重要です。
重大なインシデント対応を終えたあと、インシデントコマンダーがポストモーテムオーナーを1人選び、その役割を伝えるとよいでしょう。
ポストモーテムオーナーは関係者全員と協力し、エンジニアリング、マネジメント、カスタマーサポートチームとともにポストモーテムを行ないます。
複数人にポストモーテムオーナーを割り当てると当事者意識が薄れ「傍観者効果」が生じるため、1人に絞ることが重要です。
ポストモーテムオーナーを選ぶときは、次の基準を満たす人物がよいでしょう。
ポストモーテムオーナーは、インシデント対応のあとに事後検証をまとめる重要な役割です。
システムやネットワークでインシデントが発生する原因には、多くの要素が絡んでいます。
そのため、ポストモーテムオーナーは関係者全員と協力して、インシデントの詳細な分析を行なうことが大切です。
また、ポストモーテムの結果は全員で共有して、学びを深める機会としましょう。
インシデントの原因は一つではなく、複数の要素が絡み合うケースが少なくありません。
そのため、効果的なポストモーテムを実施するには、広い視点と包括的なアプローチが必要です。
例えば、エンジニアリングチームだけでなく、マネジメントやカスタマーサポートチームなど、さまざまなチームからの視点を取り入れるとよいでしょう。
また、関係者全員が参加しやすい環境を整えることも重要です。透明性のある情報共有を行ない、全員が自由に意見を述べられる雰囲気を作りましょう。
個人のミスを責めない環境を作ることで、より正確な情報が集まり、再発防止策の質が高まります。
PagerDutyでは、業界のベストプラクティスやポストモーテムテンプレートが詰まったハンドブックを無料で提供しています。
ポストモーテムプロセス構築と、チームのインシデント対応にお役立てください。
また「PagerDuty」には、ポストモーテムを支援するツール「Jeli」が組み込まれています。
「Jeli」は、インシデント発生時のデータを自動的に収集・分析して、チームのコミュニケーションを改善するためのツールです。
「Jeli」を組み合わせた「PagerDuty」のポストモーテム機能は、14日間の無料トライアルでご利用いただけます。
「PagerDuty」を活用して自動タイムライン構築、共同編集、実用的なインサイトなど、ポストモーテムプロセス全体の合理化を実現しましょう。
14日間の無料トライアル
https://ja.pagerduty.com/sign-up/
「Jeli」の詳細についてはこちらのページをご覧ください
https://www.pagerduty.co.jp/platform/jeli/
「PagerDuty on Tour TOKYO 2025」で大好評を博したセッション「あなたの運用は未来に対応できていますか?AIと自動化で実現する次世代運用」および 「セルフサービスで実現する自動化のオーケストレーション」を振り返ります。
目次