ソリューション解説動画
現代のシステム運用を取り巻く課題 / 現場エンジニアを救う処方箋とは?
システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)
2024年7月19日(金)に発生した、世界規模のシステム障害(インシデント)においてPagerDutyが分析したところ、インシデント発生は通常と比較して最大150%増加しており、PagerDuty上での復旧作業には通常よりも200%多い人員が投入されたことがわかりました。
この数ヶ月間で重大インシデントは前年比で40%増加しており、さらに、PagerDutyが2024年6月に公表したグローバル調査によると、ITリーダーの90%がシステム障害に起因する混乱が企業に対する顧客の信頼を低下させたと回答しています。また、ITリーダーの69%が障害が発生した際に顧客からの信頼を保つための投資が不足しているとも回答しています。
日々の業務、日常生活がデジタル化されている今日において、このようなインシデントはもはや避けることが難しく、インシデント発生はある種の”New Normal”であると言えるでしょう。だからこそ、発生することを前提に、迅速な情報収集と修復作業ができる体制と仕組みを構築できるかが重要です。
インシデントが発生すると、企業規模の大小にかかわらず修復作業にリソースを取られ、通常業務に支障を来すことになります。インシデント修復にあたり、社内コミュニケーションが円滑でないという事実を目の当たりにすることもあるでしょう。
目次
一方で、インシデントは、そこから学び、今後の成長につなげるための機会と捉えることもできます。
大きな影響を与えるインシデントが発生すると、毎週のようにそれに関するニュースが報道されます。そのような報道を受け、多くの企業はインシデントによって引き起こされた混乱を安定させることと、その障害が及ぼす影響先への対応の2点にフォーカスを起きがちになります。その結果、企業はインシデントから「学ぶ」機会を疎かにしがちです。
多くの企業は、インシデント対応終了後に事後分析などを行い将来の予防につなげていると発表しますが、本当に必要なデータを収集し、そこから得られる学びを、現場担当者だけでなく経営層も理解するような形で、事後分析しているのでしょうか。
インシデントが発生すると、インシデント対応者だけで結成する小規模なプロジェクトチームがインシデント対応を迅速に行い、早期修復を試みます。このプロジェクトチームにアサインされるメンバーのほとんどが、インシデント対応のエキスパートであり、根本原因をつきとめ、何をしたら修正できるかの多くの知見を持っています。しかし、これら知見や、インシデント対応からの学びは、このプロジェクトチームだけで蓄積され、経営層を含む他の社内関係者にシェアされることはほとんどありません。
企業はインシデントの事後分析を一歩進め、インシデント対応者だけでなく、経営層を含む社内関係者が学ぶ機会と位置づけることが必要です。多くの関係者がインシデントから学ぶことにより、より多くの社員がインシデント対応のエキスパートとして活躍できるようになるはずです。
障害対応プロセスをすぐに共有することは大変重要なことですが、特に、最初に対外的に公開する情報で対応プロセスに関する詳細を記載するのは控えたほうが懸命です。特に、大規模インシデントにおいては初回の情報共有に留まらず、5日後、30日後と情報共有をする機会が出てきます。インシデントの状況だけでなく、どのように対応するかに言及すると、障害調査が進むごとに明らかになる事実や対応プロセスと乖離することがある点に留意すべきでしょう
実際にインシデントに対応したメンバーだけで事後分析を行うと、近視眼的になり、インシデントの全体像や客観的な洞察を提供することが難しくなります。これを防ぐために、社内での事後分析には対応に関わらなかった技術担当者の分析と洞察を取り入れることが重要です。
大規模なインシデントが発生すると、対応しているプロジェクトメンバーと、ビジネスへの影響を最小限に抑えたい経営層の間で、インシデント対応への期待値や、コミュニケーションギャップが発生することが多々あります。このような状況では、企業が「インシデントから学び、将来のインシデント発生を予防する」ことが難しくなります。真摯にインシデントを学びの機会と捉えるのであれば、上記2で述べた「インシデント対応に関わらなかった技術担当者」が対応メンバーと経営層の両方の意見を捉え、客観的な洞察とともに、幅広い意見を取り入れて事後予防対策を策定することが重要です。
インシデントからの学びを最大化するために、生成AIの活用も検討しましょう。熟練した現場担当者は、インシデント対応の過程において、自分が何故、何のためにそれをしているのか、意識しないまま行っているケースが見受けられます。これは悪い意味では無く、意識しなくても当然のこととして行っている、経験がなせる業です。
しかしその結果、周りが分かるように説明できず、組織の学びに繋がらない可能性があります。
生成AIを活用することで、プロジェクトチームメンバー以外の関係者を教育できます。たとえば、ステークホルダーがチャットボット経由で状況を把握したり、適切な状況のサマライズを行わせたりすることが可能になります。事後分析においても、予防措置の提言などで活用できます。このように、多くの関係者にインシデント対応のエキスパートになってもらうことで、対外的コミュニケーションを含む、より良いインシデント対応が可能になります。
規模の大小に関わらず、インシデントが発生すると企業に大きな負担となります。しかし、インシデントは「発生するかもしれない」ではなく、「発生したらどう対応すべきか」ということを念頭に置き、日々のIT運用を行うべきです。すべての業務、サービスがデジタル化している今日において、AIをはじめとするテクノロジーを最大限に活用するとともに、それを補う、人によるインシデント対応は、より一層重要になるでしょう。どのようにインシデント対応したかの事後報告に留まらず、一歩進んで、将来のインシデント予防を策定することで、ビジネス成長だけでなく、エンジニアの燃え尽き症候群や離職を抑えることにもつながるのです。
PagerDutyでは、インシデント分析の専門家が、「インシデント対応に関わらなかった技術担当者」の代わりとなり、客観的な洞察を引き出すサービスを提供しています。また、PagerDutyを利用することで生成AIによる以下の機能も提供しています。
インシデント対応におけるお悩み、ご相談はこちらからご連絡ください。
▼こちらの記事もおすすめ
> システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜
システムが複雑化し、その変化も加速する中、システム運用を担う現場エンジニアの負荷は日々高まっています。
「インシデント対応」を例に、具体的に現場でどのような課題があるのかをご紹介。
そして、それらの課題をPageDutyがどのように解決できるのか、デモを交えて解説します。→ PagerDutyの資料をみる(無料)
目次