製品・アドオン
PagerDutyの優位性
おすすめコンテンツ
PagerDuty Advance
PagerDuty Advance
重要なデジタルオペレーション業務における生成AI機能

障害時に適切なコミュニケーションを実現するベストプラクティス

障害時に適切なコミュニケーションを実現するベストプラクティス

システム障害が発生すると、企業全体にその影響がおよびます。
技術的な対応が行なわれている最中も、広報・カスタマーサポート・法務・経営陣といったステークホルダーに、常に情報を提供することが求められるでしょう。

しかし、チームのグローバル化が進み、その所在が世界中に分散するようになったことで、効率的な内部および外部コミュニケーションと対応はより困難になっています。
障害発生中に効果的な情報伝達を実現するには、明確な計画とプロセスが必要です。これにより、一刻を争う事態での時間の浪費を最小限に抑え、ストレスの多い大規模障害の最中でも透明性と統制を保つことができます。

この記事では、障害時におけるコミュニケーションの重要性や課題、ベストプラクティス、各方面とのコミュニケーション方法などを解説します。

障害時におけるコミュニケーションの重要性

システム障害が発生した際には、復旧対応や原因調査、ステークホルダーへの説明など、ユーザーへの影響を最小限に抑えるための適切な対処が必要です。
万が一、適切な対応を実施できなかった場合、ユーザーにとっては不快な経験として記憶に残るでしょう。なかには、競合他社に乗り換えるユーザーが出てくる可能性も十分に考えられます。そのため、適切かつ迅速な対応を実施できる体制を整えておくことが大切です。

しかし、復旧対応や原因調査など、それぞれの工程は難度が高く、一人でこなせる作業量には限界があります。限られたリソースで障害を解消するには、適切な人員を集約・配置することが必要です。

また、対応者が増加・変更した場合にも適切な対応で障害を解消できるよう、情報を共有する必要があります。情報共有がスムーズにできなければ、障害解消までの時間が延びてしまう可能性もあるでしょう。
正しい情報を迅速に伝えるためにも、コミュニケーションの場を用意しておくことが大切です。

障害時のコミュニケーションで考えられるおもな課題

障害時のコミュニケーションは、マニュアル的かつ場当たり的に行なわれているケースもあります。
これにより、次のようにいくつかの課題が生じます。

  • 複数の分断されたチャネルでのアップデート管理によって、問題解決に専念できず、ITチームにさらなる負担を強いることになります。これにより、問題解決までの期間が延びるリスクが生じます。
  • 普段、障害対応にあたる機会があまりないと、策定したコミュニケーションルール通りの行動をとれないことがあります。また、そもそもルールの詳細をどこで確認できるのか、忘れてしまうこともあるでしょう。
  • 障害対応にあたっていると、そちらに没頭してしまい、ほかのことに手が回らなくなることがあります。その結果、コミュニケーションをとることを忘れ、関係者への状況共有が滞ってしまうことも課題の一つといえるでしょう。
  • 社内外のステークホルダーは、関連する最新情報を得るにはどうすればよいかわからず、いら立ちを感じることもあるかもしれません。特に、大規模障害の情報を、チームからではなく顧客から知るような事態は望まないでしょう。

障害時の情報伝達は従来、メーリングリストや会議、複数のチャットがそれぞれ同時進行する形で行なわれていました。

しかし、プロセスが適切に管理されていなければ、サービスの劣化や生産性の低下などによる損失が生じかねません。
インシデント発生時のコミュニケーションに関するプロセスを集約し、すべてのビジネス関係者に情報を行き渡るようにすることが重要です。

障害時のコミュニケーションにおけるベストプラクティス

「PagerDuty」を導入している企業のうち、NTTドコモ様の事例を取り上げてみましょう。
NTTドコモ様は、コミュニケーションを円滑にしたことで、障害時のMTTR(障害回復時間)の短縮に成功しています。

この成功には、1つの電話番号でオンコール状態の人と、すぐに連絡が取れる状態を維持していることが大きく影響しているでしょう。
フロントエンドとバックエンドで分かれているチームには、同時にアラートを通知する設定にしています。さらに「PagerDuty」と連携しているSlackのチャンネルには、開発チームとビジネスチームのメンバーを追加しています。
これにより、関係者全員が必要なアクションを起こせる状態になりました。その結果、MTTA(平均確認時間)は3~5分、MTTRは2時間15分を実現し、クリティカルでないアラートへの対応時間は月に40時間ほど削減できています。
NTTドコモ様の事例について、詳細はこちらをご覧ください。

上記を踏まえ、ここでは障害時のコミュニケーションプランをシンプルにするためのベストプラクティスを紹介します。
障害時のコミュニケーションに関する課題を解消するためにも、具体的な方法を確認しておきましょう。

1.シングル・ソース・オブ・トゥルース(信頼できる唯一の情報源)を確立する

障害の発生期間中、対応者は目前の問題の解決に全神経を集中させています。
そして、できるだけ早く、ログの確認、メトリクスの確認、コラボレーション、チーム外への連絡など、必要なタスクを遂行しなければなりません。
そのため、複数のツールを切り替える時間の余裕などはないでしょう。

情報を集約されるツールやチャンネルは統一し、そこを見れば信頼が出来る情報が取得出来るという場所を確立することが重要です。

2.ステークホルダーのリストを事前に設定し、自動通知する

重大インシデント中に起こりがちな混乱を抑えるためには、事前に計画を立てることが大切です。また、少しでも負担を減らすために、なるべく自動化を行いましょう。例えば、インシデント発生時に誰が対応に関わるかを考え、連絡方法について悩むような時間は削減するといったものです。
PagerDutyを利用すれば、問題の周知が必要なステークホルダーのグループを、事前に設定できます。インシデント発生時には適切な連絡方法で、簡単に適切な人員に自動通知することが可能です。

3.ポストインシデントレビューを合理化し、今後の対応の改善につなげる

インシデント対応中は、多くのコミュニケーションが発生します。この際、ChatOpsツールなどの複数の場所に情報が分散した状態になりがちです。

システムやプロセスに関する失敗を防ぐためには、発生したことを時系列に整理し、インシデント後のレビューを行って起きたことの整理とアクションアイテムの優先付けを行ない、組織としての理解を深めていくことが重要です。このレビューの際に、コミュニケーションが分散していると情報の収集に多くの手間がかかってしまいます。

PagerDutyが提供するJeliを活用すると、このようなコミュニケーションをすばやく時系列に整理し、レビューにかかる手間とコストを大幅に削減することが可能です。

4.実践を繰り返す

障害対応とコミュニケーションのスキルを上げるには、定期的に障害訓練を実施するのが効果的です。
顧客に影響がおよばないようにしつつ、さまざまな状況をテストして、潜在的な脆弱性を明らかにしてみましょう。そこでの対応が、突発的な問題が発生した際にも生かせます。
また、適切な関係者を巻き込みつつ、問題を素早く解決する能力の向上にもつなげられるでしょう。

障害時にインシデント管理チームと適切なコミュニケーションを実施する3つのプロセス

チームは、特定分野のエキスパート(SME)と現場の対応者全員を巻き込んで、インシデント対応を効果的に調整する必要があります。
ここでは、インシデント管理チームとのコミュニケーション方法を具体的に解説します。

インシデントコマンダーを設定する

インシデントコマンダーとは、インシデントを解決に導く指揮官のことで、障害時の意思決定や作業担当者への指示、体制構築などの役割を担っています。
具体的には、各チームから関係者を集め、インシデントを追跡し、対応を調整する際の連絡窓口として機能します。
インシデントコマンダーについては「インシデントコマンダーとは?〜現代のIT運用には必須!その役割と理由〜」をご確認ください。
インシデントコマンダーの役割に関する詳しい情報とベストプラクティスについては、こちらのウェビナーをご覧ください。

コミュニケーションチャネルを選ぶ

対応チームとのコミュニケーションに使用するチャネルの数は、なるべく抑えましょう。障害時に、いくつものツールを切り替えることに時間を費やすのは、もったいないことです。
使用するチャネルを選ぶ際は、インシデントの重大度やスコープ、チームの文化、作業場所などを判断基準にしましょう。
また、適切な人材がすぐに関与できるようにすることも重要です。

ChatOpsツールを活用してすべてを文書化する

ChatOpsは「Chat」と「Operation」とを組み合わせた造語です。「Chatサービスをベースとしたシステム運用」という意味合いがあります。
ChatOpsツールは、インシデント対応チームにとって強い味方となるでしょう。
チャットクライアントを使って同時にディスカッションを進めると、作業者と作業内容についてまとめたタイムスタンプ付きデータを、検索可能な状態で取得できます。
さらには、特定のタスクを自動化することも可能です。モニタリングのグラフなどの大切な情報を共有ビューにまとめることで、解決時間を短縮できます。

障害時にステークホルダーと適切なコミュニケーションを実施する5つのプロセス

システム障害はそのシステムだけの問題ではなく、事業全体や収益などに影響をおよぼすリスクもはらんでいます。
そのため、サポート・法務・マーケティング・セールスなどのチームへの情報共有についても、計画を策定しておく必要があります。
共有する内容について把握して、関係者が情報を簡単に得られるようにし、誰がどのくらいの頻度でアップデートを受け取るかを決めましょう。

何を共有するかを決定する

状況を整理するために、対応チームはポイントを押さえた概要的なアップデートのみを共有するのが効果的です。
例えば、障害の重大度、見込み所要時間、対応内容、次回のアップデートの時期などを共有するとよいでしょう。

サポートチームに通知する

大規模障害が発生したら、速やかにサポートチームの代表者に通知する必要があります。
これにより、サポートチームは適切な案内、リアルタイムでのステータスページとサポートチャネルのアップデート、問題の発生中および事後の顧客への連絡をスムーズに行なうことができます。

ステークホルダーへの情報共有は自動化する

ステークホルダーへの情報共有には「PagerDuty」のステークホルダーとのコミュニケーション管理を利用するのがおすすめです。
この機能を利用すると、好きな連絡手段を使って個人やグループのステークホルダーに通知を自動送信できます。これにより、障害発生時に誰に連絡すべきかを考える手間が省けるでしょう。

また、ステークホルダーはインシデントステータスページを登録して、進捗を確認することもできます。
詳しい情報は、ステークホルダーとのコミュニケーションをご覧ください。

フォローアップを調整する

社内でさらに質問が生じた際に、すでに障害対応にあたっているチームの作業を中断させるわけにはいきません。
物事を進展させることと、必要に応じて情報を追加することのバランスを保つために、厳選した質問をインシデントコマンダー経由で投げかけましょう。

一般に告知して透明性を示す

問題について認知しており、解決に向けて対応中であることをエンドユーザーに告知しましょう。
障害通知は、ソーシャルメディアへの投稿、ステータスページのアップデート、カスタマーサポートへの社内連絡など、さまざまな方法で行なうことができます。
『Inc.』誌によると、新規顧客の獲得コストに比べ、既存客の維持コストのほうが30倍少ないそうです。
ユーザーにいち早く障害について連絡することで、障害の経緯に関して支配権を握れます。また、透明性を備えたコミュニケーションに対して、自社が高い優先度を置いていることをアピールできます。
定期的に顧客にアップデートを提供し、その問題がどのような影響をおよぼすかなど、実用的な情報を共有しましょう。これこそ、簡潔で要点をついたコミュニケーションといえます。

障害時のコミュニケーションを改善するなら「PagerDuty」の導入を検討しよう

「PagerDuty」は、ベストプラクティスを採用した対応を自動化することで、障害時コミュニケーションの改善をサポートします。
「PagerDuty」のステークホルダーエンゲージメントにより、好きなコミュニケーションチャネルを使用してステークホルダーにリアルタイムのアップデートを提供できます。また、適切なビジネス全体の対応から顧客に影響がおよぶ問題まで、オーケストレーションすることが可能です。
先述した、NTTドコモ様の障害時におけるコミュニケーション工数の改善については、こちらのダウンロード資料からご確認いただけます。

また、インシデントコマンダーを設置する際には、「インシデントコマンダー業務解説~仕事の流れと必要な資質~」をご覧ください。

まとめ:障害時に適切なコミュニケーションを実施することは信頼性の担保につながる

障害時に適切なコミュニケーションを実施できなければ、企業だけでなくユーザーにも影響がおよびます。そのため、各方面へ迅速に情報共有をすることが重要だといえます。

しかし、社内外とのコミュニケーションは、チームのグローバル化などによって困難なこともあるでしょう。このような状況下で適切なコミュニケーションを実施するには、各チームやステークホルダーとのコミュニケーション方法を明確にし、自社にとってのベストプラクティスを構築することが大切です。
「PagerDuty」のインシデント解決は、ステークホルダーとのコミュニケーションの自動化、ポストモーテムの合理化・学習など、すべてベストプラクティスに基づく内容です。
障害時のコミュニケーションを改善したい場合は、14日間の無料トライアルをぜひお試しください。

ダウンロード資料はこちら

14日間の無料トライアルはこちら

PagerDutyを14日間無料で試してみる

700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

PagerDutyイメージ

この記事が気になったら

  • Facebook
  • LinkedIn
  • twitter
  • はてなブックマーク

PageDuty公式アカウントをフォロー

  • Facebook
  • LinkedIn
  • twitter

関連ブログ記事関連ブログ記事

検索検索
タグタグ
インシデントをより早く・少ないリソースで解決
閉じる
システム障害対応の未来を徹底議論する年に1度の祭典
AIと自動化活用による新時代のシステム運用革命
2025. 04/10(木)13:00 - 20:30
開催場所:虎ノ門ヒルズフォーラム
事前登録はこちら