ソリューション解説動画
現代のシステム運用を取り巻く課題 / 現場エンジニアを救う処方箋とは?
システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)
本記事では、ユーザー皆様に向けて「PagerDutyをうまく活用するための推奨設定」「ベストプラクティス」をご紹介します。ぜひ本記事をご覧いただき、さらにPagerDutyをご活用頂けますと幸いです!
目次
プロファイルに少なくとも3つの連絡手段を設定してください。電話、アプリ、SMSをお勧めします。モバイルアプリはこちらからダウンロードしてください。
high-urgencyのNotification Rules (通知ルール)は、3つ以上の手段と時間差通知を設定してください。
モバイルアプリ、SMS、電話の組み合わせで、15分〜30分程度で繰り返し行うことをお勧めします。
(例: すぐにモバイルアプリへ、2分後にSMS、3分後に電話など)
すべての通知ルールを数分間隔で設定し、複数のチャネルから同時に通知されるのを避けるようにします。通知ルールのタイミングが、エスカレーションポリシーのタイムアウトを超えないように注意してください。
Low Urgencyの通知ルールとして、メールを設定します。
自分の現在のタイムゾーンを設定します。
Confluence、Apple Calendar、Google Calendar、Microsoft OutlookなどのサードパーティアプリにPagerDutyのスケジュールを追加することができます。
PagerDuty Mobileアプリを使用していない場合は、ウェブサイトからvCardをダウンロードし(またはQRコードをスキャン)、PagerDutyの電話番号のリストを追加することができま
す。PagerDutyの電話番号はVIPやお気に入りの連絡先にしておきましょう。
スケジュール上に複数のレイヤーを使って、複数のシフト(日勤/夜勤など)を表示させます。インシデントを見逃さないために、オンコールスケジュールに空白がないようにします。
スケジュールコピー機能で、バックアップスケジュール(2次、3次スケジュールなど)を作成します。 レスポンダーの不在時や病欠時のために、一時的なスケジュールのオーバーライドを利用します。
エスカレーションポリシーは、複数のレベルを設定し、通知を見逃さないように繰り返し設定します。
サービスは、それを担当するオンコールチーム毎に構成されている必要があります。複数のチームが一つの
サービスの責務を分担する場合は、可能であれば、Serviceを分割して利用するのがよいです。
各サービスの用途、顧客への影響、サービス間の依存関係などを把握できるように説明文をDescritionに記載します。 SlackやMicrosoft Teamsなどのコミュニケーションツールと連携させ、双方向でシームレスに情報を同期させます。
サービス設定では、インシデントの緊急度が高いか低いかを判断するために、アラートの深刻度を使用するように設定する必要があります。
深刻度は、Service Orchestrationを使って設定/変更することができます(時間帯など、インシデントの緊急性を判断するための他のサービス設定も確認してください)
アラートグルーピングを使用して、アラートノイズを削減してください。(AIOps機能 – タイムベースまたは機械学習によるインテリジェントアラートグルーピング)
モニタリングツールやコミュニケーションツールが、当社のインテグレーションライブラリに含まれている場合、使いやすさを確保するために当社の正式なインテグレーションツールを活用ください。 弊社の公式なインテグレーションがまだない場合は、APIインテグレーションを使用ください。
技術スタックの1つの領域の健全性を監視するために複数のツールが使用されている場合、それらを1
つのサービスに統合可能です。 (重複するノイズを最小限にするために、サービスは複数のインテグ
レーションを持つことができます).
Event Orchestrationを使用して、対処不要なアラートを抑制し、対処すべきインシデントを適切なチームにルーティングし、重大度を設定、メモを追加するなど、受信したイベントを拡張することができます。
Acknowledge – インシデントの認識。更なるエスカレーションを停止します。
Resolve – インシデント解決。対応時間を正確に把握するために、問題が緩和/解決されたときには必ず
Resolveにします。
Add responders – 他のチームが問題解決のために関与する必要がある場合に、チームのエスカレーションポリシーをレスポンダーとして追加し、そのチームのオンコール担当者に通知されるようにします。Reassign Incident – インシデントが自分のチームのものでない場合は、再割り当てします。
Add notes – 関連情報やリンクを追加することで、Responderがインシデントを迅速に解決できるようにします。
Add stakeholders – 重大なインシデントが発生時に、ステータスアップデートをプッシュ配信し、ビジネス部門を継続的にサポートします。
Incident Workflow – インシデントに対応者/ステークホルダーを追加するプロセスをさらに自動化し
Merge incidents – 同じ/関連するインシデントやアラートをマージして、インテリジェント・アラート・グルーピング・アルゴリズムを学習させます。
DON’T PANIC!オンコールができない場合、いつでもオーバーライドを入力することができます!まず、あなたのシフト(またはシフトの一部)をカバーすることについて同僚に相談し、PagerDuty内でオーバーライドを作成してください。次のエスカレーションポイントに行く必要がある場合も、オーバーライドを入力し、その人を選択することで、遅延が発生しないようにします。
システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)
目次