公式資料
「デジタルオペレーションの現状」独自調査レポート
エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)
今の時代、「常時稼働のサービス」がもはや当たり前となってきており、企業がユーザーの期待に応えるためにはシステム障害やインシデントを未然に防ぐ必要が高まっています。それにともないインシデントへのオンコール対応も増えています。しかし一方で、システム運用者の間でのインシデントの割り当て において効率性と公平性を両立することはのが難しく、インシデント担当者のオンコールシフトをうまく組めずにお困りの方もいらっしゃるのではないでしょうか。
自社のオンコールシフト運用にとって最適なスケジューリング方法をお探しの皆様に、PagerDuty の「ラウンドロビンスケジューリング」機能をご紹介します。「ラウンドロビンスケジューリング」は、チーム内で適切に仕事を分担し、インシデント対応をチームの成長につなげるスケジューリングの方式です。
この記事では、「ラウンドロビンスケジューリング」の仕組みやメリット、ベストプラクティスをご紹介します。
目次
「オンコールスケジュール」とは、インシデントの発生やシステムの停止に迅速に対応することを目的に、適切な担当チームが24時間体制で常に稼働している状態のスケジュールです。そのため、「オンコールスケジューリング」は、インシデントがいつ発生しても問題に対処できる人材の確保を意味します。
一方、オンコールスケジューリングは、単にダウンタイムを切り抜けるためだけの施策ではありません。オンコールスケジューリングによって、障害の発生が、チームの新しいスキル習得の機会にもつながります。例えば、システム障害への対応を通して重要なサービスへの理解がより深まることで、「サービス設計方法への気付き」や「インシデント対応の改善点の把握」につながることがあります。
つまり、オンコールスケジューリングは、インシデント発生時のダウンタイム減少だけでなく、「チームの学びによりアップタイムの向上につながるスケジューリング方式」といえるのです。
オンコールスケジューリングのシフトの割り当てには、タスクスケジューリングの方式が応用できます。そのため、ここではまず代表的なタスクスケジューリング方式を4つご紹介します。
各タスクに優先順位を付け、優先順位の高いものから先に実行します。そのため、自身より優先順位の低いタスクが実行状態の場合は、優先順位の高い自身のタスクを割り込めます。
FCFS(First Come First Served) 方式とも呼ばれ、実行待ちに到着した順にタスクを実行します。タスクの割り込みはありません。
処理時間の短いタスクの優先順位を上げる方式です。実行待ちタスクの処理時間が実行中タスクの残り処理時間よりも短い場合には、実行待ちタスクを割り込ませます。
基本はプロセスの到着順にタスクを処理していき、実行中に一定時間経過したタスクはタイムアウトし、実行待ちに並びなおす方式です。PagerDutyは「一斉通知」がデフォルトですが、的確な通知を行うために公平に順番を回していくラウンドロビン方式を活用するために「ラウンドロビンスケジューリング」を機能としてご提供しています。
一般に「ラウンドロビンスケジューリング」は、チームメンバーにオンコールシフトを分配する手法で、より柔軟なローテーションを可能にし、複数の担当者を同じシフトにオンコール対応してもらうことが可能です。インシデントをチームメンバーに公平に分配し、業務過多のリスクを最小限に抑えることで、インシデントの効率的な解決に繋げることが可能です。
この手法を導入する際、スプレッドシートを用いてたくさんの人手をかける方もいらっしゃるかと思います。あるメンバーがインシデントに関わるとマネージャーがスケジュール表を変更し、別のインシデントが発生するとマネージャーが次のメンバーにそれを知らせ、これを繰り返すといった具合です。しかし、こうした場当たり的な方法では、チームメンバーはいつ自分のシフトが廻ってくるのか分からず、気が気ではありません。そこで力を発揮するのがPagerDutyの「ラウンドロビンスケジューリング」です。
PagerDutyの「ラウンドロビンスケジューリング」は、同じサービスに発生した複数のインシデントをシームレスに解決すると同時に、業務を分散して業務過多のリスクを減らします。オンコールシフト中に複数のインシデントが同時発生すれば、すぐにキャパシティオーバーになる恐れがありますが、PagerDutyの「ラウンドロビンスケジューリング」なら、複数のインシデント対応に必要な数のメンバーを割り当て、顧客への影響を軽減できます。
「ラウンドロビンスケジューリング」の有無で、オンコール対応がどのように変わるかご紹介します。
すべてのインシデントが1名の担当者に割り当てられ、他のメンバーは待機します。1名の担当者が複数のアラートに対処するため、MTTA(平均確認時間)とMTTR(平均修復時間)が上昇します。担当者1名のキャパシティを超えれば、エスカレーションが必要となります。
インシデントがメンバーに公平に分配され、仕事の分担が可能です。各担当者が自分に分配されたアラートに集中できるため、MTTA(平均確認時間)とMTTR(平均修復時間)の短縮が可能になります。インシデントが増えてもほかの担当者に分配されるため、エスカレーションの頻度が減少します。しかしながら、「ラウンドロビンスケジューリング」はどのようなチームでも大きな効果を出せるわけではありません。そこで次は「ラウンドロビンスケジューリングを最大限効果を発揮させる方法」をご紹介します。
オンコール制度の導入や変更は決して簡単ではありません。適切なオンコール対応方法を選ぶには、チーム目標とインシデントボリュームの考慮が不可欠だからです。では、「ラウンドロビンスケジューリング」が最も効果を発揮するケースとはどういったものでしょうか。
カスタマーサポートやヘルプデスクにおいて、週末や休日も関係なく複数のタイムゾーンからの電話対応を余儀なくされるケースでは、1名のオンコールスタッフだけでは対応しきれない場合があります。システムにログオンした瞬間に「大量の問い合わせ」に圧倒され、他のメンバーやチームに支援を求めることも多いかと思います。ラウンドロビンスケジューリングは、予定外のチームメンバーを慌てて呼び出すことがないよう、あらかじめ別のメンバーをアサインし、チーム全体でワークロードを均等に分散します。
カスタマーサポートやヘルプデスクと同様に、24時間体制で人員配置を管理し、大量の問い合わせに対応するチーム「NOC」です。複数のサービスをサポートするNOCが受けるインシデントの量は、オンコールエンジニア1名で対処できるものではありません。初期対応の担当者が対応するインシデントの内容が多岐にわたる場合は、さらに対象分野の専門家(SME: Subject Matter Expert)を配置することで対応を迅速にし、顧客への影響を軽減できます。
「ラウンドロビンスケジューリング」の使い方に慣れるには少し時間がかかります。オーバーライドしたり反対したりする人も出てくるかもしれません。そのような問題はつきものですが、ラウンドロビン方式への移行を進めやすくするヒントをここでご紹介します。
もしかすると、チームメンバー全員を24時間常に待機させればよいと考える方もいるかもしれません。しかし、インシデント対応人数を増やし業務を分散すれば一人あたりの負荷は軽くなるのは事実ですが、そのやり方では全員を常に勤務中のような気持ちにさせることになります。オンコールシフトを賄える最少人数を見極め、それ以外のメンバーにはストレスを与えないようにすることが大切です。
休暇中のメンバーはローテーションから外しましょう。オンコールシフトのケースであることですが、チームメンバーの人数が十分でインシデント数もそれほど多くなければ、ローテーションの最後尾のメンバーが電話を受けることはないと思われるかもしれません。それでも、休暇中のメンバーはローテーションから外し、仕事から完全に解放することでエンジニアを燃え尽きから解放することに繋がります。
もしかすると奇妙に聞こえるかも知れませんが、オンコール担当だからと言って、終日デスクで画面を見つめている必要はありません。問題が発生したら対応できればよいのです。PagerDutyを使えば、モバイルアプリで出先からでも多くのインシデントを解決できることを是非チームの皆様にお伝え下さい!(笑)
オンコールシフトのメンバーが複数いるからといって、新規メンバーの教育を怠ってはいけません。「ラウンドロビンスケジューリング」のオンコールローテーションでは、顧客体験の質を保つためにメンバー全員に同一レベルのスキルセットと知識が要求されます。チームで毎週オンコールレビューを行い、知識の差を洗い出し、メンバー全員で情報共有を図りましょう。
「ラウンドロビンスケジューリング」は業務過多のリスクを減らしますが、万能薬や銀の弾丸ではありません。会話を通じてキャパシティを超えていないかどうかを確認し、必要であればシフトを調整しましょう。特に「複数のローテーションに入っている」「今のローテーション以外にも別の業務を担当している」といったメンバーには気を配ってください。
「ラウンドロビンスケジューリング」は、インシデントがメンバーに公平に分配されることで、チーム内での適切な仕事の分担を可能にするタスクスケジューリング方式です。担当者は自身に割り当てられたアラートに集中できるようになり、「MTTA(平均確認時間)とMTTR(平均修復時間)の短縮」に貢献します。
PagerDutyの「ラウンドロビンスケジューリング」は、「ビジネス」プランおよび「デジタルオペレーション」プランでご利用いただけます。PagerDutyをすでにご利用中のお客様で本機能の利用をご希望される場合は、PagerDuty担当者までご連絡ください!また、PagerDutyにおける「ラウンドロビンスケジューリング」機能の詳しい使い方は、こちらのナレッジベースまたは以下の動画にてご確認いただけます。
エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)
目次