公式資料
「デジタルオペレーションの現状」独自調査レポート
エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)
本記事では、PagerDutyをご活用いただく皆様に向けて「PagerDuty機能名」「PagerDuty製品に出てくる用語」などを分かりやすくご紹介することで、よりスムーズなご活用に繋げていただけますと幸いです。シリーズ第一弾は、入門編「インシデントへの対応」です。
目次
確認されたインシデントは、作業中ですがまだ解決されていません。インシデントをAcknowledged(確認済み)にしたユーザーはそのインシデントのオーナーとなり、エスカレーションプロセスを停止します。
インシデントがAcknowledged(確認済み)された後に忘れないようにするために使用します。Acknowledgedされたインシデントは、指定された時間後にTriggered(トリガー)された状態に戻り、割り当てられた担当者に再通知されます。Service Settingsで設定します。
インシデント対応者を追加します。機能を使用すると、インシデント対応で必要な方に対して支援依頼を行うことができます。対応者の追加は、チーム間の協力が必要な重要なインシデント対応の際に役立ちます。
PagerDuty標準に正規化されたイベントデータを指します。アラートは抑制するか、インシデントを作成してオンコール対応者に通知することができます。
PagerDutyオートメーションアクションは、Runbookオートメーションもしくはプロセスオートメーションで設定されたジョブを呼び出します。アクションは、インストールされたプロセスオートメーションランナーによって実行されるスクリプトを呼び出すこともできます。Automation ActionsをPagerDutyサービスと関連付けることで、対応者は定義された診断または修復アクションのライブラリにプッシュボタンでアクセスできるようになり、解決時間を短縮し、エスカレーションが減少します。Automation Actionsは、Event Orchestrationの一部として使用することもできます。また、インシデントの改善アクションを自動的に実行することもできます。
カンファレンスブリッジを使用すると、インシデント対応者がウェブ会議を設定することができます。PagerDutyアカウントでカンファレンスブリッジを作成するには、サービスレベルまたはアカウントレベルの2つの方法があります。
カスタムフィールド機能により、PagerDutyインシデントをインシデントのライフサイクル全体を通して重要かつ有用な項目を作成することができます。必要な項目をを柔軟に定義し、インシデントに表示する情報を標準化できます。この機能により、複数の既存システムからデータを集約し、インシデント対応中にその情報を入力することもできます。また、カスタムフィールドは、Event Orchestration経由で値を自動入力することも可能です。
インシデントがエスカレーションポリシーの次のレベルのオンコールユーザに移動することです。インシデントは、自動的に(例:インシデントがAcknowledgedされなかった場合)または手動で(例:オンコールユーザーがインシデントをEscalationした場合)エスカレーションすることができます。
インシデントは、サービス低下など、人が対応する必要がある事象として作成されます。アラートから作成され、複数のアラートで構成される場合もあります。サービス上でインシデントがTriggered(トリガー)されると、ServiceのEscalation Policyに従ってオンコール対応者に通知が送られます。
インシデントがTriggered(トリガー)されてからResolved(解決済み)までの経過時間を計算します。
関連するインシデントを1つのインシデントに統合します。これにより、通知や解決のプロセスを合理化できます。複数のインシデントを統合すると、関連するアラートもインシデントに統合され、インシデント対応者が問題の根本原因と影響を特定するのに役立ちます。他の選択されたインシデントも解決され、解決理由が「Merge」と表示されます。
インシデントの優先順位により、ユーザーはインシデントの影響を分類し、どのインシデントが最も重要であるかに応じて対応を優先させることができます。
再割り当て機能を使用すると、インシデントを、その問題を処理するのに適した別のユーザまたはチームに割り当てることができます。インシデントを再割り当てする場合、別のエスカレーションポリシー、アカウント内の任意のユーザー、または現在のエスカレーションポリシー内の別のレベルに割り当てるオプションがあります。
インシデントが解決された状態を指します。インシデントが解決されると、追加の通知は送信されません。なお、解決されたインシデントを再度オープンにすることはできません。
カンファレンス(会議)ブリッジは、service settings>Coordinate Responders and Stakeholdersから追加できます。会議ブリッジをサービスに追加すると、そのサービス上でトリガーされるすべてのインシデントに会議ブリッジ情報が表示されます。
スヌーズ機能を使用すると、一定期間インシデントをAcknowledged(確認済み)状態に保つことができます。この間、スヌーズされたインシデントがエスカレーションされたり、オンコールユーザーに再通知されたりすることはありません。インシデントをスヌーズすると、サービスに設定されているAcknowledged応答のタイムアウトが上書きされます。
これはインシデントの現在の状態を示します。ステータスには以下の三種類があります。「Triggered(トリガー)」、「Acknowledged(確認済み)、「Resolved(解決済み)。
インシデントに、サブスクライバーとして追加し、ステータスの更新を関係者に通知することができます。
まだ誰も対応していない、未着手のインシデントです。
エンジニアの燃え尽きを防ぐ秘訣とは?
一段と信頼性の高いシステムを顧客が求めるようになり、勤務時間外や夜間の対応など、技術チームへの要求も増しています。本レポートでは、19,000 社以上、100 万人を超えるユーザーで構成されるPagerDutyプラットフォームから収集したデータを基にしたシステム運用の”今”を解説!→ PagerDutyの資料をみる(無料)
目次