公式資料
「デジタルオペレーションの現状」独自調査レポート
エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)
急なインシデント対応が発生した際に、うまくスケジューリングを活用していますか?
「優先順位がわからず、何から手を付けるべきか迷ってしまう」「アラートに気付くのが遅れる」「特定のエンジニアにインシデント対応が集中してしまう」など、これらの問題はスケジューリングを徹底することで解決できるかもしれません。その際手作業によるスケジューリングには限界があるため、専用のツールを導入して、自動化することをおすすめします。
本記事では、「スケジューリングの重要性」や「スケジューリングツール導入のメリット」、「スケジューリングツールの活用方法」、そして「新たにアップデートされたPagerDutyの新機能」について解説します。
目次
まずは、インシデント対応におけるスケジューリングについて、説明します。「スケジューリング」とは、物事を効率良く進めるために計画を立てる作業のことを言います。
インシデント対応においてスケジューリングを怠ると、インシデントへの対応が遅れ、ダウンタイムの長期化につながります。インシデント対応するエンジニアの割り当てや作業時間の割り出しが不十分だった場合、作業効率が低下して人的コストなどのリソースが増大します。迅速な対応が求められるインシデント対応において、スケジューリングは必要不可欠であるプロセスだと言えます。インシデント対応が遅れたり、不十分だったりすると、企業のイメージや顧客満足度に悪影響を及ぼす恐れがあります。
スケジューリングツールは、エンジニアのシフトや対応状況を可視化し、システムやネットワークのトラブルに素早く対応するためのツールです。スケジューリングツールを用いてインシデント管理するメリットについて解説します。
迅速な対応が求められるインシデント対応では、エンジニアのシフトや現在の業務状況を常に把握しておくことが重要です。インシデントは休日や夜間にも発生することがあるため、適切なエンジニアをいつでも迅速に割り当てる必要があります。スケジューリングツールを使用しない場合、どのエンジニアに割り当てるかの判断が難しくなり、対応の遅れや重複につながる恐れがあります。
スケジューリングツールは特定のルールに基づき、担当者に自動でアラートを通知する機能を備えています。例えば、インシデントが発生した際に、オンコール中のエンジニアだけにアラートを送ることが可能です。
また、連絡が取れない場合は、メールから電話への連絡方法を切り替える、または別の担当者へ自動転送するなど、さまざまな設定が可能です。スケジューリングツールがなければ、これらすべての連絡調整をすべて手作業で行なわなければなりません。
スケジューリングツールを用いてエンジニアのシフトを管理すると、各エンジニアがどれだけオンコール対応しているかを把握できます。
オンコール対応が続くと、エンジニアは燃え尽き症候群を引き起こしやすいと言われています。これは、オンコールシフト中のインシデント対応に、高い集中力を要求されるためです。
スケジューリングツールを活用して各エンジニアの負担状況を把握できれば、1人のエンジニアに負担が集中しないよう、バランス良くシフトを配分できます。
インシデント管理におけるスケジューリングの流れを解説します。
まずは、日ごと、または週ごとにオンコールを担当するスタッフやチームを決定します。
「月曜日はAチーム、火曜日はBチームが担当する」など、すべてのスタッフがインシデント対応に参加するよう、バランス良くシフトと業務を分配しましょう。
また、担当者やチームだけでは対応できないケースやチームメンバーが病気で不足してしまうケースなど、不測の事態に備える必要があります。このようなケースを考慮し、第二担当者やバックアップチームを決めておくことも重要です。
システムやネットワークのログデータを分析し、発生率の高いインシデントを特定します。
そのなかから、トラブル発生時に対応の遅れによって生じるリスクを想定し、インシデントに優先順位をつけます。このときに、企業のブランドイメージや顧客満足度など、営業面への影響も考慮することが重要です。特定したインシデントに対応できるように、適切な技術と経験を持つスタッフやチームを選定しましょう。
インシデントが発生した際に、迅速に対応できるよう、以下のような3段階に分けた対応フローを作成します。
エラー内容に関する情報収集を行ない、インシデント対応チームに連絡しましょう。
必要に応じてバックアップを取得し、セキュリティインシデントの場合はネットワークの通信経路を変更して、臨時の対策を実施します。
ログファイルやシステムを分析して原因を特定し、二次被害を防ぐために、被害が及んでいる可能性のあるシステムやネットワークについても調査してください。
調査が完了したら、結果をまとめて関連部署に報告します。
特定されたインシデントの原因に対処し、システムやネットワークを復旧させるための計画を立てましょう。その後、計画に従って必要な修復作業や設定変更を実施し、修復後のシステムが正常に機能するかをテストします。
同じインシデントが再度発生しないように、根本的な原因を特定し、対策を実施します。例えば、システムのアップデートやセキュリティ対策です。
さらに、インシデント対応フローについても振り返り、改善点がある場合は見直しをしましょう。
ここでは、PagerDutyのスケジューリング機能の活用方法を解説します。
PagerDutyのスケジューリング機能により、インシデントが発生した際のオンコール対応エンジニアと通知手段を設定し、対応をワークフロー化します。
PagerDutyのユーザーインターフェースはシンプルで操作しやすく、オンコールシフトのローテーションの組み替えが簡単に可能です。これにより、突発的な変更にも対応できます。
また、スケジュール画面では、現在対応中のエンジニアを一目で確認できます。
チームの状況を正確に把握することで、緊急時に迅速な対応が可能となり、ダウンタイムの短縮につながります。
設定したルールに従って、インシデントの自動割り当てが可能です。
通常、インシデントが発生した際にはエラー内容を目視で確認し、マニュアルに基づいて、適切な担当者へ連絡しなくてはいけません。
しかし、PagerDutyで事前にルールを設定しておくと、発生したインシデントに対して、どのチームがどのような順序で対応するかを、自動で割り当てられます。
これにより、インシデントに着手するまでの時間が大幅に短縮可能です。
インシデントアラートの緊急性を、その重要性に基づいて自動的に判断し、振り分けられます。
例えば、緊急性の高いインシデントには電話を鳴らし、緊急性が低いものにはアプリ通知を使用します。また、インシデント対応中に、別のインシデントアラートが鳴ることを防ぐ設定も可能です。
このようにアラートを効率良く振り分けると、無駄な通知が減り、エンジニアの負担軽減に役立ちます。専用のアプリをエンジニアのスマートフォンにインストールするだけ、通知を受け取ることが可能です。
PagerDutyでは、スケジュール画面が見やすく、現在の業務状況や次回のローテーションが一目で把握することが可能です。具体的には、以下の項目が1つの画面に表示されます。
PagerDutyでは、お客様からいただいた意見を反映し、スケジュール作成をよりスムーズに行なえるように製品アップデートを行なっています。例えば以下の機能はお客様のフィードバックを基に追加した機能になります。
編集機能においては、チームやプロセスが変更されても、スケジュール画面に変更箇所がすぐに反映されます。
インシデントが発生するたびに、それらを目視で確認し、手順書に基づいて適切な担当者に連絡を取る作業は、大きな労力を要します。さらに、アラートの通知にチャットツールやメールを使用する場合、エンジニアは常にこれらをチェックし続ける必要があり、大きな負担となるでしょう。
そこで、インシデント管理ツールを導入すると、インシデントの検知と割り当てを自動化し、適切な担当者にアラートを送信できます。こうした点でインシデント対応にお困りの方は、ぜひPagerDutyをお試しいただき効果的なスケジューリングを実現ください!
エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)
目次