製品・アドオン
PagerDutyの優位性
おすすめコンテンツ
PagerDuty Copilot
PagerDuty Copilot
重要なデジタルオペレーション業務における生成AI機能

理想的な障害対応の流れとは?
〜6つのStep、6つのポイント〜

理想的な障害対応の流れとは? 〜6つのStep、6つのポイント〜

初めてシステム運用担当者になった方のなかには「システム障害が起きたら、どのように対応したら良いのだろう?」と疑問に思っている方もいらっしゃるのではないでしょうか。
システム障害が発生した場合は、正しい流れで対応することにより早期復旧が可能です。障害対応のフローに沿って迅速に行動することで、サービスや業務への影響が最小限に抑えられます。

本記事では、「システム障害が発生した際の障害対応の流れ」と「システム障害を発生させないための予防法」を解説します。障害対応の業務効率化にも役立つ内容となっていますので、運用担当の方はぜひ参考にしてください。

障害対応とは?

障害対応とは、運用中のシステムやネットワーク、サーバーなどに障害が発生した際に、復旧させるための作業のことです。ユーザーがサービスを正常に受けられる状態や、業務を滞りなく遂行できる状態にするために行なうもので、運用保守の担当部署やシステムの開発・運用を担うチームが障害対応業務を担います。

そして昨今、システム障害対応においてはインシデント管理が重要性を増しています。これは、インシデント管理をすることにより、システム障害を含む問題のスムーズな解決と再発防止につながるためです。
システム運用における「インシデント」とは、ユーザーがサービスを正常に利用できない状態を指し、システム障害もインシデント要因の一つに該当します。このほかには、ネットワークのトラブルや人的ミスも、インシデントの要因になります。
システム運用では、このようにさまざまな要因のインシデントが発生するため、優先順位を付けて対応しなければなりません。インシデントを適切に管理すれば、システム障害などによりシステムやサービスを正常に利用できない事態が発生した際にも適切に対応でき、迅速な復旧につながります。
インシデント対応については、以下の記事で詳しく解説しているので、併せてご覧ください。

「インシデント対応」とは? 〜効率的な体制構築のポイントを解説〜

障害対応の流れ、6つのStep

障害対応は、障害によって受ける影響を最小限に食い止めるために、迅速に行なう必要があります。そのため、システム障害が発生した際には、次の流れで障害対応を進めましょう。

1️⃣ 障害の内容をチェックする

ユーザーからの障害報告や検知ツールからのアラートを受けた場合は、どの程度の障害が発生したのかをすぐに確認しなくてはなりません。初動で確認すべき項目と内容は、次のとおりです。

確認する項目確認すべき内容
障害が起きている対象
  • 障害が起きている画面
  • 障害が起きたサーバーの名称 など
障害の内容や発生事象
  • ソフトウェア障害
  • ハードウェア障害
  • セキュリティ障害
障害が影響する範囲
  • 使用できないインフラ
  • サービスや業務への影響
障害の再現性
  • 同じ障害が再現できるか
  • 全体に起きる障害か、特定のユーザーにのみ起きる障害か
障害が発生した時刻
  • 19時頃などの具体的な時刻

障害は、複数の要因が絡み合って起こるケースが少なくありません。そのため、ほかの部分にも不具合が起きていないかを確認する必要があります。

2️⃣ 関係部門や担当者に連絡を行なう

障害の範囲を確認したら、あらかじめ決めておいたフローに沿って、関係部署や責任者に連絡をしましょう。障害によって影響をおよぼしそうなユーザーに対しても、早期に連絡が必要です。
連絡の際は、障害について詳細な情報を伝えるよりも、迅速に伝えることを重視しましょう。ただし、情報をあいまいに伝えると誤解や混乱を招き、復旧が遅れる恐れもあります。不明点については「調査中」や「不明」などと、はっきり伝えることが重要です。

3️⃣ 障害の影響を調査する

適切かつ迅速に障害対応を行なうために、ユーザーや社内におよぶ影響を細かく調査しましょう。このとき、ほかのシステムへの影響がないかも調査する必要があります。
また、サービスや業務に影響が出ていたり、復旧作業に時間がかかったりする場合は、影響を抑えるために予備のサーバーやシステムの利用を検討します。

5️⃣ 障害の原因を解明する

障害の原因を探るために、障害が起きたシステムの監視データやレポートなどを確認します。
次に原因の仮説を立てて、検証を行ないます。原因が特定できなければ、検証結果や過去の類似障害をもとに再度仮説を立てて、原因の解明を進めます。

5️⃣ 復旧作業を行なう

障害の原因が解明できたら、最初に暫定的な対応を行ないます。ユーザーが利用を継続できるように、応急処置として必要最低限の機能を復活させるか、代わりの機能などを用意しましょう。
そして、このタイミングでユーザーに対し、復旧のめどや代替手段の利用をアナウンスします。
暫定的な対応を行なったあとは、恒久的な復旧作業に入ります。恒久的な復旧作業を行なう際には、作業計画を立てて手順を定めてから進めましょう。

6️⃣ 事後対応を行ない再発防止に努める

復旧作業が済んだら、再発防止のために障害分析をしたうえで、関係者への報告を行ないます。このとき「なぜなぜ分析」で障害の原因を分析すると、根本原因にたどり着きやすくなります。
また報告書には、以下の内容を記録しましょう。

  • 障害の概要
  • 時系列順の障害説明
  • 障害が業務やサービスにおよぼした影響
  • 暫定対応と恒久対応の内容
  • 障害の原因・対策
  • 再発防止策

報告書を作成したら、関係部署へと共有します。
「システム障害に関する企業のリスク対策」や「インシデント管理」についてもっと詳しく知りたい方は、ぜひ以下の記事もご覧ください。

システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜

障害を発生させないための6つのポイント

障害が発生時の対応フローについて解説しましたが、そもそも障害が発生しないよう未然に防ぐことも重要です。入念に予防しても障害を完全に防ぐことは困難なため、被害を最小限に抑えられるような策を講じておきましょう。

1️⃣ 定期的にメンテナンスを実施する

安定してシステムを稼働させるためには、普段からメンテナンスを定期的に行なうことが大切です。機器やプログラムが古いままだと脆弱性が含まれている可能性もあり、不具合が起きやすくなります。必要に応じて、これらの修理・交換を行ないましょう。プログラムの更新をこまめに行ない、常に最新の状態にしておくことも大切です。

2️⃣ 障害対応用の予備サーバーを用意する

障害の発生に備え、予備の環境を準備しておくことも有効です。そもそもダウンが発生しないような体制を整えるのが理想ですが、費用がかかるなどの理由で絶対にダウンしないサーバーの構築は困難です。
そのような場合は、システムを冗長化して、障害発生時に切り替えられる状態にしておくのが望ましいでしょう。自動的な切り替えが可能になれば、障害が発生しても顧客影響を及ぼさずに済みます。

3️⃣ システムの脆弱性を診断する

昨今は、ウイルス攻撃やデータの改ざんなどのサイバー攻撃を受けることは、珍しくありません。サイバー攻撃は、セキュリティやシステムの欠陥を狙って行なわれるため、気付かないうちに、システムが攻撃されているケースもあるでしょう。
この対策としては、脆弱性診断が有効です。脆弱性診断でシステムのセキュリティリスクを把握することで、リスクへの対策が可能になります。

4️⃣ クラウド環境を構築しておく(オンプレミス環境の場合)

オンプレミスのシステム障害における対策としては、ハイブリッドクラウド環境の構築も有効です。クラウド環境も用意しておくことで、オンプレミス側のシステムがダウンした際にも事業を継続できます。
実際にとある病院では、東日本大震災でサーバーがダウンした際に、クラウド上に電子カルテのデータセンターを用意していたことで診療を継続できました。
このような事例から、障害を防ぐための手法としてハイブリッドクラウド化が有効だといえるでしょう。

5️⃣ ヒューマンエラーの防止

システム運用時のヒューマンエラー(人為的ミス)も、障害の発生要因の一つです。ユーザーの操作ミスや設定ミス、見間違い・思い込みなどによるミスから、システム障害に発展する可能性があります。
対策として、チェックリストやマニュアルの作成、ダブルチェック、事例の共有などを行ない、ヒューマンエラーを防止しましょう。インフラのコード化(IaC: Infrastructure as Code)もヒューマンエラー防止のために有効です。

6️⃣ 運用監視ツールを導入する

運用監視ツールを導入し、システムやサーバーなどの稼働状況を監視することでも、システム障害を防げます。運用監視ツールの導入により一日中監視が可能となり、故障・不具合の前兆を見つけやすくなるためです。
さらに、検知した内容の通知も行なわれるため、障害が発生する前に対策を立てられるようになります。なお、運用監視ツールやシステムには、次のような種類があります。

  • 死活監視
  • ログ監視
  • リソース監視
  • トラフィック監視
  • ハードウェア監視

これらのツールを用いて行なうシステム監視には、大きく分けてインフラ監視とサービス監視という領域があります。それぞれ、監視対象となるのは以下のとおりです。

インフラ監視:サーバー、ネットワーク、通信回線 など
サービス監視:アプリケーション、サーバーソフトウェア など

障害対応には「インシデント管理」が重要

社会全体でDX化が進む昨今において、システム障害の発生をゼロにすることは、限りなく不可能に近い状況です。そのため、システム障害の発生を防ぐ意識も大切ですが、システム障害が起きてしまった場合には「いかに効率的に障害を解決するか」が重要になります。さらに、効率的な障害対応を行なうために「トリアージ・動員」の自動化を進めることも大切です。
システム障害といったインシデントを適切に管理するには、インシデントが発生した際に適切な対応を行なう必要があり、そのためには、インシデント管理ツールを取り入れるのが近道となります。

インシデント管理ツール「PagerDuty」では、アラート発生時に対応が必要なインシデントのみを精査して切り分けが可能です。さらに、対応すべき人にのみ自動的に通知することもできるため、運用担当者やエンジニアの負担軽減も期待できるでしょう。インシデント管理については、以下の記事でも解説しているため、ぜひこちらも参考にしてください。

インシデント管理とは?〜システム障害を未然に防ごう〜

▼おすすめの資料はこちら
ダウンロード資料

シンプレクス株式会社様 導入事例:イベント対応スピードが10分の1に短縮しオペレーションミスも撲滅

シンプレクス株式会社様は、金融機関の業務にかかわるシステム構築や、金融サービスの開発を手がけている企業です。国内の大手銀行や証券会社、生命保険会社のビジネスパートナーとして、絶大な信頼を獲得しています。
シンプレクス様が対応する金融機関向けの運用保守業務では、小さなトラブルが大きな損失につながりかねないため、24時間365日体制での対応が必要です。しかし、以前はトリアージを手作業で行なっていたため、オペレーションミスの誘発が懸念されていました。

そこで、インシデント管理のためにPagerDutyを導入したところ、インシデント対応の自動化に成功。対応スピードが向上して、サービスデスクの初期対応時間が10分の1まで減少し、さらに質の高い障害対応が行なえる体制も構築できました。
今後はPagerDutyの能力を最大限に活用し、さらなる品質向上と負荷軽減への挑戦を目指しています。

▼導入事例
シンプレクス様事例 ミッションクリティカルな金融機関のシステム運用にPagerDutyをハブとした仕組みで対応時間の大幅短縮を実現

株式会社ココナラ様 導入事例:PagerDuty導入でエンジニアのオンコール負担を大きく軽減!

株式会社ココナラ様は、デザインやWeb制作などを依頼したい人と受けたい人とをマッチングするサービス「ココナラ」を提供しています。このほかに、弁護士に相談できるサービスや法人向けのサービス、ITフリーランスと企業の案件をつなぐサービスなどがあります。
ココナラ様のプロダクトは、24時間365日体制で稼働しなければならず、インフラエンジニアだけでは手が回らないため、開発メンバーも保守を担当しています。
ビジネスの拡大で増加するアラートへの対処を考えてPagerDutyを導入したところ、インシデント対応の効率化に成功しました。一日に対応すべきアラート数は平均3~4件程度、平均確認時間(MTTA)は日中で1分以内となっています。また平均修復時間(MTTR)も、暫定対応を1営業日程度にでき、エンジニアにかかる負担も減りました。
今後も、アラートの数を減らすなどして効率を高めるために、PagerDutyの運用に磨きをかけることを考えているそうです。

▼導入事例
ココナラ様事例 PagerDutyでオンコールの負担を大きく軽減! エンジニア横断で対応するココナラのインシデント対応

まとめ:障害対応を行なう際は迅速な行動と予防が大切

システム障害が発生した際には、事前に決めたフローに沿って迅速に対応することで、業務やサービスに与える影響を減らすことに繋がります。

しかし、そもそもシステム障害が起きないようにしたいものの、システム障害の発生を完全に防ぐことは難しいのが現状です。そこで、システム障害が起きた際に素早く対応するために「インシデント管理」が重要視されています。
インシデント管理ツールの「PagerDuty」を導入することで、システム障害が発生した場合でも迅速な対応が可能です。素早くインシデント対応を行なうことで、お客様に迷惑をかけるリスクや、自社ブランドを毀損するといったリスクを減らせます。

また、インシデント管理の実施により、システム障害の再発防止やエンジニアの負荷軽減を図ることも可能です。システム障害やインシデント管理にお悩みの方は、ぜひ一度PagerDutyを無料で試してみませんか。

PagerDutyを14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

PagerDutyイメージ

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる
システム運用の盟主が集まる年に一度の祭典
AIと自動化の新時代におけるオペレーショナル・レジリエンスの再構築
2024. 08/06(火)13:00 - 20:30
開催場所:東京ミッドタウンホール
事前登録はこちら