NTTドコモ様 事例
NTTドコモのシステムにおける
「DevOps推進と運用効率化」
NTTドコモが提供するサービスのシステム開発・運用では積極的にDevOpsを推進しています。
「オブザーバビリティの強化、PagerDutyの導入」により初動対応の迅速化や運用の効率化を実現。
サービスの価値を高める活動に多くの時間を割けるようになった事例をご紹介!→ PagerDutyの資料をみる(無料)
PagerDutyはRound Robin Schedulingを発表できることを嬉しく思います。Round Robin Schedulingによって、チーム内のメンバーでオンコールシフトの担当者を公平に割り当てることができるようになります。エスカレーションレベルに応じて、新しいインシデントを異なる担当者やオンコールスケジュールに自動的に割り当てることで、チームが可能な限り効率的にインシデントを解決できるようにします。複数の担当者で仕事量のバランスを取ることによって、燃え尽き症候群のリスクも軽減されます。
目次
あるサービスでインシデントが発生した場合、1人の担当者がアラートを受け取って、トリアージを開始します。発生したインシデントが1つだけなら、管理可能です。しかし、大量のアラートが発生するサービスでは、担当者は複数のインシデントに対応しようと複数の方向に注意を向けるため、インシデント対応中に混乱が生じるかもしれません。30分以内に対処が必要な5つの異なるアラートを受け取ったとしましょう。1人のオンコールエンジニアがすべてに対応することはできません。そこでRound Robin Schedulingが役立ちます。
Round Robin Schedulingを使えば、担当者は新しいエスカレーションポリシーを作成するか、既存のエスカレーションポリシーを編集して、“Users are assigned via round robin on the escalation level.”と書いてあるボックスをチェックすれば、簡単にローテーションを作ることができます。
上記の例のような場合、ラウンドロビンの各担当者は、5つのアラートのうち1つをトリアージするよう割り当てられます。これによりインシデント対応が効率化されて、ダウンタイムが短縮され、顧客体験が向上します。
Round Robin Schedulingがない場合 | Round Robin Schedulingがある場合 |
すべてのインシデントが1人の担当者に割り当てられ、残りのチームメンバーはスケジュールにないために待機状態にある | インシデントはチーム内のメンバーで公平に割り当てられ、それぞれが仕事を分担する |
1人の担当者が複数のアラートに対応しようとするため、平均確認時間 (MTTA)と平均修復時間 (MTTR)が長くなる | 各担当者が受け持ちのアラートに専念するため、平均確認時間 (MTTA)と平均修復時間 (MTTR)が短くなる |
仕事量が多すぎて担当者が対応できなくなった場合、エスカレーションを余儀なくされる | 入ってくる問題にすぐ対応できる別の担当者がいるため、エスカレーションの頻度が少ない |
さらに、次のローテーションは誰かを確認することも簡単です。担当者がエスカレーションポリシーを表示すると、ラウンドロビンのローテーションで次が誰なのかが緑の矢印で示されます。そのため、問題が発生したときに、予期していない人がアラートを受け取ることはありません。
大量のリクエストを受け取るオンコールチームでは、常に燃え尽き症候群の懸念があります。1人のチームメイトが複数の問題を同時に処理している間、他のチームメイトは待機状態にあることもあります。このようなオンコールシフトは、アラート対応疲れ、対応の遅さ、認知能力の低下などを引き起こす可能性があります。オンコールシフトが月に1度しか発生しないとしても、離職率を高める十分な圧力になり得ます。
Round Robin Schedulingは、担当者だけではなくマネージャーも含めて、新規の各インシデントが順番に割り当てられるようにし、チームがバランスよく担当を分担できるようにします。これは、優先順位の高いインシデント中に介入する必要があるかもしれないディレクターなど、エスカレーションの上位レベルを含め、オンコールスケジュールに関わる全員にとって公正で予測可能なローテーションを維持することに役立ちます。
あたなのチームが、オンコール数の管理、インシデント対応の効率化、仕事量の公平な割り当て方法を探しているなら、Round Robin Schedulingをビジネスプランとデジタルオペレーションプランで利用することができます。現在ご利用中のお客様で、この機能へのアクセスを解除するアップグレードをご希望の場合は、PagerDutyアカウントチームまでご連絡ください。まだご利用になっていない方は、この機能を14日間無料でお試しいただけます。
Round Robin Schedulingの詳細については、こちらのサポートページをご覧いただくか、こちらのYouTubeショート動画をご覧ください。
▼こちらの記事もおすすめ
> システム障害を未然に防ぐ「インシデント管理」とは?
> インシデント対応とは?事例から読み解く対策方法
NTTドコモが提供するサービスのシステム開発・運用では積極的にDevOpsを推進しています。
「オブザーバビリティの強化、PagerDutyの導入」により初動対応の迅速化や運用の効率化を実現。
サービスの価値を高める活動に多くの時間を割けるようになった事例をご紹介!→ PagerDutyの資料をみる(無料)
目次