製品・アドオン
PagerDutyの優位性
おすすめコンテンツ
PagerDuty Advance
PagerDuty Advance
重要なデジタルオペレーション業務における生成AI機能

インシデントコマンダー業務解説
~仕事の流れと必要な資質~

インシデントコマンダー 業務解説〜仕事の流れと必要な資質〜

前回は、何故インシデントコマンダーに注目が集まっているのか、そしてどのような役割なのかを解説しました(インシデントコマンダーとは? 〜現代のIT運用には必須!その役割と理由〜)。今回はよりインシデントコマンダーの業務について踏み込んで解説を行っていきます。

おさらい: インシデントコマンダーとは

前回のおさらいをしましょう。インシデントコマンダーを一言で説明すると インシデントを解決に導く指揮官 です。重大なインシデントが発生した際、インシデント対応プロセスの全体を管理し、関係者間の調整とコミュニケーションを行い、出来る限り早くインシデントを解消に導くのが責務です。

インシデントコマンダーの役割

  • 意思決定
  • 作業担当への指示
  • 作業要員や関連部署の招集・体制構築
  • ステークホルダーとのコミュニケーション
  • 状況の交通整理
  • インシデントの発生と収束の宣言
  • ポストモーテムの作成指示

インシデント発生時の対応の流れ

インシデントが発生した際、インシデントコマンダーは状況を素早く把握し、適切な対応を取ることが求められます。ここでは、インシデントコマンダーが進めるべき対応の流れを説明します。

1️⃣ 状況の把握(Size-Up)

まず、インシデントの症状を特定し、影響範囲を確認しましょう。この段階で、適切な対応方針を決定するための情報収集を行います

  1. 症状の特定
    1. 作業担当に指示を行い、今何が起きているのかを調査・報告させる
    2. 可能な限り多くの情報を収集
    3. 情報を元に起きていることの整理
  2. どこまで影響が及んでいるか
    1. 問題の規模や、問題が現在も拡大しているのか、それともバタついているのかなどを判断
    2. 今起きていること、今後起きうることを整理

このフェーズでは、システムのログやメトリクス、ユーザーからの報告など、様々な情報源から得られるデータを分析し、インシデントの全体像を掴むことが求められます。

PagerDutyでは、インシデントごとにSlackやTeamsのチャンネルを自動的に作成することができます。そうして作られたインシデント対応チャンネル(War room)やNotes機能を活用して、作業担当からの情報を集めていきましょう。

2️⃣ 状況の安定化(Stabilize)

次のステップは、インシデントを安定させることです。インシデント対応というとこのフェーズを思い浮かべる人が多いでしょう。ですが、闇雲に安定化を試みても上手くいきません。まずは前述の状況の把握をしっかりと行うことから始めましょう。

状況の把握ができたら、問題を軽減するためのアクションを特定し、意思決定を行います。

  1. 取り得るアクションを見つける
    1. 作業担当と協力しながら、問題の解消・軽減ができるアクションを洗い出す
    2. それぞれのアクションに対するリスクを評価
  2. 意思決定をする
    1. 持っている情報を元に、どのアクションを実行するか意思決定をする
    2. リスクのあるアクションばかりになることもあるが、間違った判断になることを恐れすぎない。何もしないよりは良い。
  3. 同意を得る
    1. 決定したアクションを関係者に示し、同意を得る
    2. 反対意見がある場合は聞く
    3. 新たな情報が出てきた場合は、調整を行うこともある
  4. タスクを割り当てる
    1. 実際のタスクを作業担当に割り当てる
    2. タスクの内容を理解し、実行状況を確認する

3️⃣ 状況の更新 (Update)

関係者に対して定期的に情報を更新することも重要です。インシデントの解消はインシデントコマンダーが責務を負いますが、ビジネスの責務はCEOやCIOが負いますし、ユーザーに対する責務はユーザー担当が負います。関係者が適切な判断を下せるよう、コミュニケーションを行うことが重要です。

この際気をつけるべきなのは、「情報の粒度」「更新の頻度」「発信の方法」です。「今作業担当が○○のログを確認している」といった粒度の情報は細かすぎます。その情報を聞いても、ビジネスの責務やユーザーに対する責務には繋がらないからです。

  • どのような問題が起きているか
  • どの範囲まで影響が及んでいるか
  • 今どのような対処を行っているか(細かすぎず、かつ抽象化しすぎていない粒度が好ましい)

これらの情報を満たすように、定期的に情報を更新しましょう。更新の頻度はあらかじめ決めておくのが良いですが、30分や1時間といった単位が考えられます。また、発信の方法については、なるべく「ブロードキャスト」型のコミュニケーションを行うように心がけましょう。関係者に対して1:1で発信していく「ピアツーピア」型のコミュニケーションでは、関係者が増えれば増えるほど時間がかかってしまい、肝心のインシデント対応に力が注げない状態になってしまうからです。PagerDutyのステータスアップデート機能や、Internal Status Pageはブロードキャスト型のコミュニケーションを行うのに役立ちます。

4️⃣ 解決の確認(Verify)

割り当てたタスクの完了状況を確認し、問題が解決したことを確かめます。万が一、解決に至らない場合は、プロセスを振り返り、必要に応じて最初の段階から見直しを行います。

インシデントの解消が確認できたら、関係者全体に対して収束の宣言を行いましょう。

収束の宣言は忘れがちですが、重要です。作業担当者はインシデントの解消を確認して帰路についたものの、情報を受け取れていなかったユーザー担当が待機状態のままになってしまったり、CEOやCIOによるビジネス面の判断が遅れてしまったりというすれ違いが起きえます。インシデントコマンダーが責任を持って収束の宣言を行うようにしましょう。

インシデントコマンダーに求められる資質

インシデントコマンダーは重要な役割ですが、神のような存在である必要はありません。たとえば、インシデントコマンダーはシステム運用に対する深い技術知識を求められると思われがちですが、必須ではありません。インシデントコマンダーに必要とされるのは、技術的な作業を行うことではなく、インシデント対応を調整することだからです。

ここでは、インシデントコマンダーになるために必要な要素を見ていきましょう。

✅ コミュニケーション能力

コミュニケーション能力は、インシデントコマンダーにとって重要なスキルの一つです。多様なステークホルダーと効果的にコミュニケーションを取るためには、分かりやすく状況を説明し、的確な質問を投げかける能力が求められます。

✅ 内部サービスへの理解

また、内部のサービスがどのように連携しているかの知識も必要です。サービスの中身の詳細よりも、どこと、どのように連携しているかを理解していることが、インシデントの影響範囲を把握するために重要です。

✅ 意思決定力

そして、意思決定力です。様々な情報をもとに状況を判断して、取り得るアクションの評価できて行動指針を立てられる力が必要とされます。

これらのスキルと資質は、一朝一夕で身につくものではありませんが、誰もが習得することができます。自分の強みを活かしつつ、弱点を補うための努力を継続することが重要です。また、経験を積むことで、少しずつスキルを磨いていくことができるでしょう。組織としても、インシデントコマンダーの育成に力を入れることが大切です。研修制度の充実や、OJTを通じた実践的な学びの機会の提供など、様々な取り組みを通じて、インシデントコマンダーの成長を支援することができます。

まとめ

今回は、インシデントコマンダーの「仕事の流れ」と「求められる資質」について書きました。

インシデントコマンダーは、インシデント対応の要となる重要な役割であり、状況の把握から解決の確認までを管理し、関係者間の調整とコミュニケーションを行います。求められるスキルと資質は高度ですが、努力と経験を通じて身につけていくことが可能です。

組織としてもインシデントコマンダーの育成に力を入れることが重要です。誰もがインシデントコマンダーとして成長できるよう、環境を整えていくのが良いでしょう。

次回は、インシデントコマンダーの業務において気をつけることやベストプラクティス、経営陣とのコミュニケーション方法について解説します。

PagerDuty公式資料
「デジタルオペレーションの現状」独自調査レポート

エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)

「デジタルオペレーションの現状」独自調査レポート

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる