を14日間無料で試してみる
700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。
ダウンタイムとは、システムやサービスが停止する時間のことです。ダウンタイムが生じると、顧客満足度や売上、ブランド価値の低下などにつながり、企業に大きな損失をもたらすことになりかねません。
そのため、企業の競争力を保つ上では、ダウンタイムを最小限に抑え、復旧時間を短縮することが非常に重要です。可用性と信頼性のメトリクスに注目すれば、システムのダウンタイムを短縮し、サービス品質を向上させられるでしょう。
本記事では、可用性と信頼性の概要や、これらがダウンタイムに与える影響について解説します。併せて、可用性と信頼性を高めるためのベストプラクティスを紹介しますので、ぜひ参考にしてください。
目次
2つの用語の定義は次のとおりです。
可用性と信頼性のメトリクスは、システムがいつでも使える状態にあるか、どれだけ信頼できるかを数値で示すために使用します。
以下は、可用性と信頼性を測定する際に使用される、主要なメトリクスです。
連続稼働時間の測定値である可用性は、次のように算出できます。
可用性の割合=(合計経過時間-累計ダウンタイム)/合計経過時間
システムやサービスの提供者は、可用性の割合を示す表に基づき、ユーザーに対して一定のサービス品質を保証する契約、通称「SLA」を提示します。
SLAは、提供されるサービスの質を明確化し、その品質が一定の基準に達していることを保証するためのものです。
可用性レベル | 非可用性の許容範囲 | |||||
1年あたり | 3か月あたり | 1か月あたり | 1週あたり | 1日あたり | 1時間あたり | |
90% | 36.5日 | 9日 | 3日 | 16.8時間 | 2.4時間 | 6分 |
95% | 12.85日 | 4.5日 | 1.5日 | 8.4時間 | 1.2時間 | 3分 |
99% | 3.65日 | 21.6時間 | 7.2時間 | 1.68時間 | 14.4分 | 36秒 |
99.5% | 1.83日 | 10.8時間 | 3.6時間 | 50.4分 | 7.20分 | 18秒 |
99.9% | 8.76時間 | 2.16時間 | 43.2分 | 10.1分 | 1.44分 | 3.6秒 |
99.95% | 4.38時間 | 1.08時間 | 21.6分 | 5.04分 | 43.2秒 | 1.8秒 |
99.99% | 52.6分 | 12.96分 | 4.32分 | 60.5秒 | 8.64秒 | 0.36秒 |
99.999% | 5.26分 | 1.30分 | 25.9秒 | 6.05秒 | 0.87秒 | 0.04秒 |
信頼性は、故障がどれくらいの頻度で起こるか、その故障がどのような影響を与えるかを調べるために測定します。
信頼性を測定する際には、次の計算式を使用します。
平均故障間隔(MTBF: Mean Time Between Failure)=合計稼働時間/合計故障回数
故障率=故障回数/合計稼働時間
信頼性と可用性のメトリクスを設定する際、企業はコストとサービスレベルの間で優先順位をつけて、どのようにバランスを取るかを決めなければなりません。
そして、インフラストラクチャとパフォーマンスのコストを考慮しつつ、高品質のサービスを提供するためにどれだけの投資が必要かを検討します。
システムがダウンする最大の許容範囲を設定し、サービスやユーザーへの影響を最小限に抑えることが重要です。
冒頭で説明したように、ダウンタイムとはシステムやサービスが正常に機能しない時間のことです。
以下では、可用性と信頼性がダウンタイムに与える影響について解説します。
上記のようにユーザー満足度が向上するのは、可用性の向上によりシステムが常に稼働し、必要なサービスをいつでも利用できようになるためです。
例えば、オンラインバンキングシステムが常に利用可能な状態にある場合、ユーザーは自分の口座にいつでもアクセスでき、支払いや資金の移動もスムーズにできるでしょう。
信頼性の高いシステムは突発的な停止が少なく、故障が発生しても素早く復旧できる設計になっています。例えば、高い信頼性を備えたデータセンターでは、一部のサーバーに障害が発生してもほかのサーバーが即座に機能を引き継ぐため、サービスの連続性が保たれます。
ダウンタイムの少ないシステムやサービスであれば、ユーザー満足度を高め、トラブル対応や緊急対応にかかるリソース・コストを削減できるでしょう。
これにより、既存ユーザーの維持と新規ユーザーの獲得が促進されると、サービスの成長を支える重要な要素となるかもしれません。
ここでは、可用性と信頼性を高め、システムやサービスが安定稼働するための方法を紹介します。
システム・サービスのパフォーマンスと信頼性を高めたい場合は、ソフトウェアの開発プロセス全体に自動化を導入すると効果的です。例えば、テスト・ビルド・デプロイ・運用・問題解決・改善などに自動化を導入します。
自動化を導入すれば、作業が早く効率的に進みます。さらに、手作業によるエラーのリスクが減るため、信頼性も向上するでしょう。
問題を事前に発見するには、開発チームと運用チームがサービスを定期的にモニタリングする必要があります。
また、可用性やレイテンシー(ユーザーが操作後に結果が表示されるまでの時間)などの指標に注目し、数値の改善を目指しましょう。
サービスの責任者と問題対処担当者の役割を明確にし、迅速に対応できるよう準備を整えましょう。一人に任せきりにするのではなく、全員で協力して対応する体制が重要です。
また、インシデント管理に必要な情報とツールをチームに提供し、使いこなすための訓練も必要です。
可用性と信頼性を向上させる上では、誰かを責めることはせず、問題が発生した後に振り返り(ポストインシデントレビュー/ポストモーテム)を行なうようにしましょう。
ポストインシデントレビューとは、システムやインシデント対応プロセスの改善に焦点を当て、問題の再発防止を目指す手法です。
参考記事: 「ポストモーテム vs レトロスペクティブ」効果的な活用法
カオスエンジニアリングとは、システムが正常に機能している状態で、意図的に障害を発生させるテスト手法です。意図的にシステム障害を起こすことで、潜在的な脆弱性を把握でき、インシデント対応の訓練にもなります。
システムの可用性と信頼性を向上させる上で非常に効果的なため、現在多くの企業で採用されています。
参考記事: システムの耐障害性を評価するカオステストとは?
サービスの可用性・信頼性を向上させるには、リアルタイムでトラブルに対応するシステムが必要です。
異なるソースからのデータを分析して、チームで協力しながら対応することで、問題の学習と予防が容易になります。
また、大きなトラブルの発生に備え、インテリジェンスと自動化を駆使して迅速に対応できるよう、体制を整えましょう。
システムの動きを詳しく監視し、データを収集する際には、オブザーバビリティツールの利用が便利です。
オブザーバビリティツールとは、システムやアプリケーションの動作状況を可視化し、監視・追跡・解析するためのツールです。知名度と導入率の高いツールとしては、New RelicやDynatraceが挙げられます。
オブザーバビリティツールはシステムをリアルタイムで監視し、問題が発生した際にはそれらを解析して、アラートを送信します。生成されたアラートはPagerDutyに送信され、インシデント管理が開始されます。
システムの可用性と信頼性を保つには、この2つのツールを効率的に連携させることが重要です。
また、信頼性の高いシステムを維持するには、厳しい基準のSLAを守る必要があります。システムの稼働状況やダウンタイムを公開し、メンテナンス頻度が高くないプロバイダを選びましょう。
PagerDutyは、これらの理由から信頼性を重視し、お客様が成果を達成するためのサポートをしています。
そして、可用性と信頼性が高いサービスの提供を目指し、複数のデータセンター、ホスティングプロバイダ、コミュニュケーションプロバイダを使用しています。
また、エンタープライズクラスのセキュリティとコントロール機能を提供し、世界中の企業に向けて、いつでもアラートを発信できる体制を整えています。
以下に、当社プラットフォームのメリットと、利用できる主な機能を紹介します。
サービスを大規模に連続稼働 | PagerDutyのサービスは、複数のデータセンター、地域、DNS、コミュニュケーションプロバイダにより提供されています。これにより、サービスを常に利用提供できる状態を維持しています。 |
確実なデリバリー | フェイルオーバーの自動化と、システム化されたポーリングおよびテストにより、毎年数十億件ものイベントを処理し、信頼性のSLAに基づくアラート発信を保証しています。 |
グローバルサービス | メール・電話・SMSなど、複数のコミュニケーションプロバイダを通じて、180か国以上の国々にサービスを展開しています。 |
サービスステータスの透明性 | ステータスページでは、24時間年中無休で稼働状況を公開しています。https://status.pagerduty.com |
稼働エンジニアリングと信頼性のベストプラクティス | 信頼性を強化するために、PagerDutyでは毎週「Failure Friday(障害の金曜日)」という名前の訓練を実施し、障害時のレジリエンスの確認と改善に努めています。 |
PagerDutyの活用によりシステムの可用性と信頼性を高め、障害発生時にも安定したサービスの提供を可能にします。
PagerDutyに関する資料や導入事例は、以下のページからダウンロードください。
ダウンロード資料
https://www.pagerduty.co.jp/resources/
PagerDutyの導入によりインシデント管理が向上し、可用性・信頼性が改善された具体例を紹介します。
NTTデータには「デジタルネイティブ、クラウドネイティブ」という組織目標があり、PagerDuty導入前はシステム開発と運用担当者間の情報伝達スピードや、ヒューマンエラーの発生に対して課題がありました。
しかし、PagerDutyを導入することで、以下の効果を得られるようになりました。
インシデント対応:自動化により、エラーを検知してから担当者へ連絡するまでの時間が「20〜30分」から「数秒〜数分」に短縮
ヒューマンエラーの削減:アラートが自動で適切な担当者に振り分けられるようになり、手動でのエラー入力や余分な手間が減り、ヒューマンエラーが減少
組織文化の改革:開発者が運用に積極的に参加することでDevOps文化が促進され、開発と運用の連携が強化
PagerDutyは、インシデントを迅速に検出・対応することで、ダウンタイムを削減・短縮します。これにより、サービスの可用性と信頼性が向上するでしょう。
NTTデータ様の事例
https://www.pagerduty.co.jp/customers/nttdata/
PagerDutyが信頼性を高める方法について、詳しくは次のソースをご覧ください。
可用性と信頼性は、システムやネットワークのサービスを強化して、ダウンタイムを短縮するために必要なメトリクスです。効率良く可用性と信頼性高めるために、定期的なメトリクス測定を実施するとよいでしょう。
具体的には期間を設定し、SLA達成状況・故障率・平均故障間隔(MTBF)などの重要な指標をチェックします。
また、PagerDutyを活用して異常が発生した際にはすぐにアラートを受け取れるよう、体制を整えるとより効果的です。
PagerDutyでは、14日間の無料トライアルをお試しいただけます。
https://ja.pagerduty.com/sign-up/
700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。
目次