ソリューション解説動画
現代のシステム運用を取り巻く課題 / 現場エンジニアを救う処方箋とは?
システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)
目次
2022年12月6日、システムのダウンタイムを最小限に抑え、障害を未然に防ぐPagerDuty(ページャーデューティー)が記念すべき第1回PagerDuty Japan Community Meetupを開催しました。今年5月にPagerDuty株式会社を設立し、日本での事業展開とサービス提供を加速させている当社。今回のセッションでは、既に長年にわたりPagerDutyをご活用いただいているアイレット様、オイシックス・ラ・大地様、グリー様、ぐるなび様、ヤフー様、LINE様にインシデント対応の活用取り組みなどをLightning Talk形式でお話しいただきました。このLightning Talkを中心にレポートします。
第一回目のMeetupはPagerDuty社長の山根の挨拶で始まり、シニア・ソリューションズコンサルタントの山田からは、PagerDutyの最新機能を案内(以下の動画参照)。
そしていよいよ錚々たる企業のご担当者様にご登壇いただき、実際の活用方法をご紹介いただきました!
はじめに登壇いただいたのは、アイレット株式会社 MSPセクショングループリーダー 村上敬典氏。「Event Orchestration を利用した監視業務の効率化」をテーマに、抱えていた課題をいかに解決したかをレクチャーいただきました。
「もともとアラートを目視で切り分けていました。しかしオペレーションミスが発生してしまう。それを解決するために監視ツールを導入したり、独自のシステムを使ったりしましたが、これも設定が大変でした」(村上氏)
「PagerDutyのService Orchestrations機能だけで、『時間での切り分け』と『対象での切り分け』という2つの課題とも解決できました。設定画面がすごく見やすいのもメリット。社内システムの都合上、例えば時間によりbacklogとbacklog-callで切り分ける時に、スケジュールに沿って置換も行ってくれます。オペレーションミスが減少し、監視モニターを作る工作も削減。リソースが有効活用できるようになりました」(村上氏)
続いては、オイシックス・ラ・大地株式会社 SREセクション・マネージャ 林如弥氏による「オイシックス・ラ・大地で助かっているPagerDuty機能3選」。24時間365日稼働するECサイトのインシデント管理に、PagerDutyを4年以上ご活用いただいています。
「助かる機能1つ目はSnooze機能。インシデントを一時的にキープしておけるので、すぐに対応できない時や『あと1時間でこのCPU負荷は直るだろう』という時に使います。アプリのUIがかなり良いです」(林如弥氏)
「2つ目はUrgency Use Case: Support Hours。サポート時間とそれ以外でルールを変えられるお勧めの機能です。一定の期間はLowで受け、平日の業務時間内など一定の期間はHighで受けることができる。ローカルのタイムゾーンに対応しているのもいいところです」(林如弥氏)
「最後、これが個人的に一番お勧めの機能Overrides。オンコールのスケジュールを上書きすることができます。有給休暇の人と代わったり、ゴールデンウィークや年末年始に担当を分担したり、夜間に叩き起こされたメンバと代わったりします。つまりOverridesは“優しさの機能”だと思っています」(林如弥氏)
グリー株式会社 リードエンジニア 林記代一氏からは、「日々利用しているPDの便利な機能」をご紹介いただきました。既にPagerDutyを8年ほどご利用いただいています。
「本当に便利なのは、自分たちの働く環境や日々変化するライフスタイルに合わせて自己設定ができる点。組織としても環境やサービスの粒度を自分たちで柔軟に設定することが可能です。気に入っているのは、Release Noteのページに毎月たくさんの更新情報がひと目でわかるように掲載されること。エンジニア向けにも細かく書いてあり、参考になることが多いです。PagerDuty自体のインシデントもかなり細かく報告をいただけて、困ることが少ないサービスです」(林記代一氏)
「個人的に好きなのはアプリのHigh-Urgency Override System Volumeです。寝ている時などスマホがサイレントの設定でもオーバーライドして通知を鳴らすことができる。意外と知られていませんが、Notificationの設定で警報音の変更ができます。普段の生活の中で激しい警告音が鳴ると周りに迷惑をかけ、びっくりされてしまうので、私は猫の鳴き声“Cat Meow”を使っています。これが鳴ると家の3匹の猫が大騒ぎになるので、私が寝ていても猫に起こされてAckに素早く対応できます」(林記代一氏)
LINE株式会社 SRE 萬治渉氏は、少し違った角度から「PagerDuty APIを使った社内ユーザサポートの効率」という活用方法をレクチャー。ユーザーサポートの担当者のアサインにPagerDutyを使用しているそうです。
「内製しているプライベートクラウドプラットフォームでは、社内のCSをSlackでエンジニアに提供しています。PagerDutyとSlack botを組み合わせて、アサインの自動化やそれをインシデント化することでエスカレーションを実現しています。Schedule機能を、その時点でのユーザーサポート担当者を返すAPIとして使う発想です」(萬治氏)
「担当者では対処できない時や緊急時は、botを通じてPagerDutyのインシデントとして作成しています。そうすると開発チームのオンコール担当宛に届く仕組み。通常のオンコールとユーザーサポートを同一できて、僕らにとっては結構便利です。ユーザーサポート以外にも使えると思うので、PagerDutyのAPIを使って遊んでみていただければと思います」(萬治氏)
他にも、株式会社ぐるなび エンジニアリングリード 古畑牧人氏からは「PagerDutyを使い始めて気づいたこと」を、ヤフー株式会社 システム統括本部 小杉隆志氏からは「PagerDutyをYahoo! JAPAN はどのように活用しているのか」をテーマにご講演いただきました。
最後は、登壇いただいた皆様に視聴者から寄せられたご質問に答えるQ&Aセッション。
「PagerDutyを採用した経緯は?」という質問には、「電話へのアクションではなく、個人の環境に合わせてオンコールを配れるのが画期的だった」「知名度で既に抜きん出ていて、マイナーなサービスを選ぶ理由がなかった」といったお答えが。
「得ている効果や見ている指標は?」という質問には、「アラートの定義の見直しが圧倒的に進んだことが一番の効果」「今まで取れなかったMTTA (平均確認時間) やMTTR(平均復旧時間)の情報がしっかり取れて、改善策を検討できる機能が揃っている」といった回答がありました。
PagerDutyでは今後も、ユーザーの皆様同士の情報交換の場を積極的に設けたいと考えています。これからもインシデント管理の生産性と効率の向上に役立つ機能で、日本のITエンジニアの幸せと事業の成長をサポートしていきます。
大変有意義なお話をしていただいた登壇者の皆様、そして視聴いただいた皆様、どうもありがとうございました。
システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)
目次