公式資料
「デジタルオペレーションの現状」独自調査レポート
エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)
前回は、何故インシデントコマンダーに注目が集まっているのか、そしてどのような役割なのかを解説しました(インシデントコマンダーとは? 〜現代のIT運用には必須!その役割と理由〜)。今回はよりインシデントコマンダーの業務について踏み込んで解説を行っていきます。
目次
前回のおさらいをしましょう。インシデントコマンダーを一言で説明すると インシデントを解決に導く指揮官 です。重大なインシデントが発生した際、インシデント対応プロセスの全体を管理し、関係者間の調整とコミュニケーションを行い、出来る限り早くインシデントを解消に導くのが責務です。
インシデントが発生した際、インシデントコマンダーは状況を素早く把握し、適切な対応を取ることが求められます。ここでは、インシデントコマンダーが進めるべき対応の流れを説明します。
まず、インシデントの症状を特定し、影響範囲を確認しましょう。この段階で、適切な対応方針を決定するための情報収集を行います
このフェーズでは、システムのログやメトリクス、ユーザーからの報告など、様々な情報源から得られるデータを分析し、インシデントの全体像を掴むことが求められます。
PagerDutyでは、インシデントごとにSlackやTeamsのチャンネルを自動的に作成することができます。そうして作られたインシデント対応チャンネル(War room)やNotes機能を活用して、作業担当からの情報を集めていきましょう。
次のステップは、インシデントを安定させることです。インシデント対応というとこのフェーズを思い浮かべる人が多いでしょう。ですが、闇雲に安定化を試みても上手くいきません。まずは前述の状況の把握をしっかりと行うことから始めましょう。
状況の把握ができたら、問題を軽減するためのアクションを特定し、意思決定を行います。
関係者に対して定期的に情報を更新することも重要です。インシデントの解消はインシデントコマンダーが責務を負いますが、ビジネスの責務はCEOやCIOが負いますし、ユーザーに対する責務はユーザー担当が負います。関係者が適切な判断を下せるよう、コミュニケーションを行うことが重要です。
この際気をつけるべきなのは、「情報の粒度」「更新の頻度」「発信の方法」です。「今作業担当が○○のログを確認している」といった粒度の情報は細かすぎます。その情報を聞いても、ビジネスの責務やユーザーに対する責務には繋がらないからです。
これらの情報を満たすように、定期的に情報を更新しましょう。更新の頻度はあらかじめ決めておくのが良いですが、30分や1時間といった単位が考えられます。また、発信の方法については、なるべく「ブロードキャスト」型のコミュニケーションを行うように心がけましょう。関係者に対して1:1で発信していく「ピアツーピア」型のコミュニケーションでは、関係者が増えれば増えるほど時間がかかってしまい、肝心のインシデント対応に力が注げない状態になってしまうからです。PagerDutyのステータスアップデート機能や、Internal Status Pageはブロードキャスト型のコミュニケーションを行うのに役立ちます。
割り当てたタスクの完了状況を確認し、問題が解決したことを確かめます。万が一、解決に至らない場合は、プロセスを振り返り、必要に応じて最初の段階から見直しを行います。
インシデントの解消が確認できたら、関係者全体に対して収束の宣言を行いましょう。
収束の宣言は忘れがちですが、重要です。作業担当者はインシデントの解消を確認して帰路についたものの、情報を受け取れていなかったユーザー担当が待機状態のままになってしまったり、CEOやCIOによるビジネス面の判断が遅れてしまったりというすれ違いが起きえます。インシデントコマンダーが責任を持って収束の宣言を行うようにしましょう。
インシデントコマンダーは重要な役割ですが、神のような存在である必要はありません。たとえば、インシデントコマンダーはシステム運用に対する深い技術知識を求められると思われがちですが、必須ではありません。インシデントコマンダーに必要とされるのは、技術的な作業を行うことではなく、インシデント対応を調整することだからです。
ここでは、インシデントコマンダーになるために必要な要素を見ていきましょう。
コミュニケーション能力は、インシデントコマンダーにとって重要なスキルの一つです。多様なステークホルダーと効果的にコミュニケーションを取るためには、分かりやすく状況を説明し、的確な質問を投げかける能力が求められます。
また、内部のサービスがどのように連携しているかの知識も必要です。サービスの中身の詳細よりも、どこと、どのように連携しているかを理解していることが、インシデントの影響範囲を把握するために重要です。
そして、意思決定力です。様々な情報をもとに状況を判断して、取り得るアクションの評価できて行動指針を立てられる力が必要とされます。
これらのスキルと資質は、一朝一夕で身につくものではありませんが、誰もが習得することができます。自分の強みを活かしつつ、弱点を補うための努力を継続することが重要です。また、経験を積むことで、少しずつスキルを磨いていくことができるでしょう。組織としても、インシデントコマンダーの育成に力を入れることが大切です。研修制度の充実や、OJTを通じた実践的な学びの機会の提供など、様々な取り組みを通じて、インシデントコマンダーの成長を支援することができます。
今回は、インシデントコマンダーの「仕事の流れ」と「求められる資質」について書きました。
インシデントコマンダーは、インシデント対応の要となる重要な役割であり、状況の把握から解決の確認までを管理し、関係者間の調整とコミュニケーションを行います。求められるスキルと資質は高度ですが、努力と経験を通じて身につけていくことが可能です。
組織としてもインシデントコマンダーの育成に力を入れることが重要です。誰もがインシデントコマンダーとして成長できるよう、環境を整えていくのが良いでしょう。
次回は、インシデントコマンダーの業務において気をつけることやベストプラクティス、経営陣とのコミュニケーション方法について解説します。
エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)
目次