ソリューション解説動画
現代のシステム運用を取り巻く課題 / 現場エンジニアを救う処方箋とは?
システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)
本記事では、PagerDutyをご活用いただく皆様に向けて「PagerDuty機能名」「PagerDuty製品に出てくる用語」などを分かりやすくご紹介することで、よりスムーズなご活用に繋げていただけますと幸いです。シリーズ第二弾は、中級編「インシデント解決を早めるために」です。
目次
PagerDuty 規格に合わせて正規化されたイベントデータを指します。アラートは抑制、一時停止、重複排除、インシデントのグループ化することが可能です。アラートはPagerDutyのAlertsテーブルで確認できます。
Business Serviceは、Technical Serviceがどのようにビジネスインフラを支えているかをモデル化し、インシデントのステータスをシステムに関わるメンバーだけではなく、ステークホルダーにも理解しやすく伝えるために使用されます。Business Serviceは複数のTechnical Serviceにまたがり、複数の異なるチームが所有することもあります。
変更相関は、インシデント担当者に最も関連性の高い最近の3つの変更イベントを”Recent Changes”として提供します。
各変更イベントには、3 つの重要な要因に基づく相関関係の理由が背景として表示されます。
その情報は時間、関連するサービス、またはインテリジェンス(機械学習)に基づいています。
変更イベントは、デプロイ、ビルド完了、設定更新などのサービス変更を示します。
Event Orchestrationとは、イベントをサービスにルーティングする方法を自動化し、設定した条件に基づいてイベントを充実させたり、自動化を実行するルールを作成することができる機能です。
Event Orchestrationには、Global OrchestrationルーティングとService Orchestrationの二つのタイプがあります。
Global Event Rules(別名、ルールセット)は、イベントを単一のエンドポイントにルーティングし、イベントの内容に基づいて実行する一連のアクションを定義するイベントルールの集合体を作成することができます。
Global Orchestrationには、イベントがどのようにサービスにルーティングされるかを定義するRouting ruleが含まれています。Global Orchestrationは、何らかの情報の補完や自動化のアクションを取るわけではありません。Global Orchestrationは、イベントを多くの異なるサービスに分岐させることができ、そこからService Orchestrationが行われます。
オンコール対応者への通知を必要とするサービスの中断のこと。インシデントは1つまたは複数のアラートで構成されます。
インテリジェントな変更相関(機械学習)は、主に3つの要因によって決定されます:
Service Orchestrationでは、ネストされたルールでデシジョンツリーに次に何が起こるかを決定します。
オープンインシデントとは、TriggerまたはAcknowledge状態にあるインシデントのことです。
Outlier(異常値) インシデント機能では、過去30日間にサービス上で発生したインシデントの頻度を一目で把握することができます。具体的には、インシデントの詳細ページのインシデントタイトルの下に、以下のラベルが適用されます。
Event Orchestrationは、PagerDuty条件言語(PCL)を活用して複雑なルールを作成することができます。
PCL式はパス、リテラル、組み込み操作、カスタム関数の組み合わせで構成されます。PCL式はtrueまたはfalseに評価されます。
過去のインシデント機能(以前は「類似インシデント」と呼ばれていました)では、同じサービス上の現在のインシデントと類似したメタデータを持つ過去のインシデントを表示できます。
推定される発生源では、現在調査中のインシデントの発生源である可能性が高いインシデントの候補を表示することができます。
プロセスオートメーション(自動化)により、ユーザーは受信イベントの量に基づいて実行するPagerDutyオートメーションアクションを指定できます。PagerDuty Process AutomationはPagerDutyアカウントのアドオンとして購入することができます。
関連インシデント機能では、調査中のインシデントに関連する可能性のある、他のサービスに影響を及ぼしているインシデントのリストを表示できます。
関連サービス変更相関は、そのインシデントのサービスに関連するTechnical ServiceおよびBusiness Serviceで発生した変更イベントに対して表示されます。
Service上にIntegrationが既に存在する場合、基本的なサービスのイベントルールを使用して、受信イベントを評価することができます。これは、イベントがモニタリングツールからTechnical Serviceに直接送信されることを意味します。
Service Orchestrationとは、イベントがServiceにルーティングされた後にどのように処理されるべきかを決定する、Serviceに紐付けられたルール群の事です。ここでイベントの情報は補完され、ネストされたルールの形で追加のアクションを取ることができます。Service Orchestrationは、基本的なサービスのイベントルールの拡張機能です。
Service Orchestrationでは、Elseルールが一つ前の条件がマッチしない場合にどうなるかを決定します。
Technical Serviceは、PagerDutyでは単にServiceとも呼ばれます。チームが運用、管理、監視するコンポーネント、マイクロサービス、インフラストラクチャの一部を表します。通常はレスポンダーがそのサービスの正常性に対して待機しているものです。Technical ServiceはBusinessl Serviceをサポートし、その成功のために不可欠なものです。
時間ベースの変更相関は、インシデントと同じServiceで発生した過去24時間の変更イベントに基づいて表示されます。
システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)
目次