公式資料
AIOpsポケットガイド
日々増大するアラートを「より早く、より少ないリソース」で解決するためには、AI・AIOpsの活用は不可欠です。
本ガイドでは、インシデントを効率的に解決するために必要となるAIOpsのポイントを解説。
システム運用を変革したいと考えるエンジニア必見です!→ PagerDutyの資料をみる(無料)
目次
PagerDutyは、当社の基盤となるデータモデルを活用し、AIによる自動化を組み入れることで、革新的なインシデント対応を実現する「PagerDuty AIOps アドオン」をリリースしました。
PagerDuty では、開発チームが業務に集中できるよう、以前からアラートのノイズ削減に取り組んできました。このたび、「Global Event Orchestration (一般リリース済み) 」と「Global Alert Grouping (2023年後期に早期アクセス版をリリース予定)」を組み合わせ、大規模なイベント相関、ノイズ抑制、自動化に対応した「PagerDuty AIOpsアドオン」をリリースしました。本アドオンは、IT運用、コマンドセンター、ネットワークオペレーションセンター (NOCs)、サイト信頼性エンジニアリング (SRE) チームの高いニーズを受けて開発した機能です。
「PagerDuty AIOpsアドオン」は、イベントの管理にとどまらず、業務の効率化もサポートします。例えば、プロセス全体をイベントドリブンで自動化することが可能です。Global Alert Grouping 早期アクセスプログラムへの参加をご希望の方は、こちらからお申し込みください。
PagerDuty AIOps ベータ版をご利用のお客様は、平均で 87% のノイズ削減に成功し、既存のソリューションよりも 9 倍速いスピードでインシデント対応プロセスの自動化を展開したほか、平均修復時間 (MTTR) を 14% 削減するなど、すでにその効果を確認しています。
Riskified のテクニカルリードであるKiril Yurovnik氏は次のように述べています。「イベント数が増えているため、ノイズとトイルを最小限に抑える必要があります。現在の経済情勢下で IT プロセスの最適化を目指しているならなおさらです。早期アクセスプログラムの一環として PagerDuty のGlobal Event Orchestration を利用していますが、素晴らしい成果を得ることができています。当社では、特に非本番環境からのノイズ除去を強化し、チームの貴重な時間を次のイノベーションに向けた作業に割くことができています」
「PagerDuty AIOps」のデモは、製品ツアーページからご覧いただけます。
PagerDuty 調べでは、イベントの数は前年比 70% 増加しています。その結果、大量のノイズとトイル作業が発生し、業務に影響が及んでいるだけでなく、対応するチームは煩雑な手作業を余儀なくされています。
インシデントの一次対応者である IT運用チームや SRE チームが肝心な背景情報やシステム全体の状況を把握できなければ、その後に最善策を講じることはできません。このような非効率的なオペレーションは状況を悪化させます。オペレーションコストを増大させ、技術部門内の生産性を下げ、付加価値のある作業に費やす時間が削減されてしまいます。
「PagerDuty AIOps」は、ノイズの削減、効率的なトリアージからの問題解決に向け適切な対応を推進し、インシデント対応プロセスにおける人の手による繰り返し作業の解消を実現します。「PagerDuty AIOps」はすぐに利用でき、負荷の大きな日々のメンテナンス作業も不要であるため、最も優れた効果を継続的にもたらします。ユーザーの行動に基づいて学習・適応する ML モデルベースのノイズ抑制機能が、実際に通知されるインシデントの総数を抑制します。また、徹底したイベント主導型の自動化によって、今までよりも迅速な問題解決を保証し、人間の介入が必要な場面を減らすため、チームは付加価値の高い作業により多くの時間を費やすことが可能になります。
Hyland のクラウドインフラストラクチャエンジニアであるBrian Longは次のように述べています。「イベントルーティングプロセスの効率性と拡張性を確保し、IT のオペレーションやコストを最適化するには、PagerDuty の Global Event Orchestration が不可欠です。当社では、通知の中から”解決済み”と判断できる情報を検知し、関連するインシデントが解決したものとして扱います。Global Event Orchestrationでは、このような条件設定が必要な箇所を少なくとも1/3に減らすことができています。これにより、設定ではなく、イノベーションのための時間を増やすことができました」
「PagerDuty AIOps」には、あらゆるチームやサービスがインシデント対応に関するベストプラクティスを標準化し、拡張をサポートする一連の機能が搭載されています。ここに、IT運用、コマンドセンター、NOC、SRE チーム向けにカスタマイズされた新機能が加わりました。
Global Alert Grouping を利用すれば、ボタンをクリックするだけで、特定のサービス内、あるいは複数のサービス全体でインシデントのアラートノイズを削減することができます。また、高機能の ML とルールに基づいたアラートグループ化法を組み合わせ、グループ化機能をカスタマイズすることができます。組織のニーズに応じて、内容、時間などの基準に基づいてアラートをグループ化してください。
ML を活用し、対応者にとって最も重要な情報を即座に洗い出すことができます。インシデント発生時には、インシデントの予想される発生源や過去の類似インシデント、また関連のありそうな直近の構成変更などについて、素早く把握することができます。
Global Event Orchestration に搭載される強力な意思決定エンジンを利用し、PagerDuty 内の一部またはすべてのサービス内で、イベント状況に基づいたルーティングの改善と制御、または自己修復アクションを起動できます。
サービス全体のオペレーション体制を一目で確認できるカスタムダッシュボードを作成することができます。また、優先的に取り込みや処理を行うべきデータを設定したり、イベントの利用状況を完全に透明化できるように、イベントデータを完全に可視化することができます。
現在 PagerDuty のプロフェッショナルプランまたはビジネスプランをご利用のお客様は、お客様のアカウント内のサブスクリプションメニューから PagerDuty AIOps をご購入いただけます。
PagerDuty AIOpsアドオンの前バージョンである、Event Intelligence をご利用のお客様は、ライセンス更新のタイミングにてPagerDuty AIOpsに移行してください。移行に関する詳細は、担当営業までお問い合わせいただくか、もしくは、PagerDuty のKBに関する記事をご覧ください。
すでに PagerDuty をご利用いただいているユーザーで、PagerDuty AIOps のデモにご興味がある方は、トライアルをお申し込みいただくか、製品ツアーをご覧ください。
その他、ご質問やお問い合わせは、こちらからご連絡ください。
日々増大するアラートを「より早く、より少ないリソース」で解決するためには、AI・AIOpsの活用は不可欠です。
本ガイドでは、インシデントを効率的に解決するために必要となるAIOpsのポイントを解説。
システム運用を変革したいと考えるエンジニア必見です!→ PagerDutyの資料をみる(無料)
目次