製品・アドオン
PagerDutyの優位性
おすすめコンテンツ
PagerDuty Advance
PagerDuty Advance
重要なデジタルオペレーション業務における生成AI機能

DevOpsチームのための自動化レシピ集:すぐに使える11の実践例

2025.02.19更新

    イベント駆動型自動化は、エンタープライズITシステムの管理において非常に効果的なアプローチです。システムが様々なイベント(監視、セキュリティ、ソーシャル、マシンからの通知など)に自動的に対応することで、手動での作業を削減・排除することができます。

    この記事では、運用効率の向上、ダウンタイムの削減、ビジネス継続性の確保を目指すエンタープライズDevOpsチームに最適な11の自動化タスクについてご紹介します。

    自動化の第一歩をどこから始めるべきかお悩みの方に向けて、セキュリティパッチの適用からリソースの最適化まで、様々なシナリオに対応した実践的な例を、実際のコードサンプルと共にご紹介します。

    自動化タスク

    1. Kubernetes Pod の管理

    概要: Kubernetes環境では通常、望ましい状態が維持されていますが、アプリケーションの状態を更新したり、新しい設定を適用したりするために、Podの再起動が必要になることがあります。この自動化タスクでは、Podを再起動して最新の環境に接続されることを確認します。また、意図しない規模の拡大を防ぐための制御機能も簡単に追加できます。

    トリガー:インシデント/イベント

    使用技術:Kubernetesプラグイン

    Kubernetes plugin showing Pod Deletion and keystore functionality

    説明: 特定の名前空間内の特定のDeploymentに対してKubernetes Podを再起動します。Deployement名やNamespaceなどのデータは、トリガーとなるイベントから動的に渡すことができ、Runbook Automationには、このプロセスを効率化するための様々なプラグインが用意されています。

    この機能は、Kubernetesエコシステム内のあらゆる活動に拡張可能で、PV(永続ボリューム)の管理、Serviceのデプロイ、ログの取得、内部ジョブの実行など、23種類のプラグインが利用可能です。

    利点:常に最新の構成でPodを実行することで、アプリケーションの安定稼働を実現します。同時に、設定ミスによるシステム停止のリスクも低減できます。

    2. ディスクリソースの最適化

    概要: ディスク容量の不足は、アプリケーションのクラッシュ、パフォーマンス低下、システムの不安定化を引き起こす可能性があります。手動でのディスク容量の監視とクリーンアップは時間がかかり、ミスが発生しやすいため、自動化されたディスククリーンアップによってシステムの安定性を維持します。

    トリガー:インシデント/イベント/手動実行

    使用技術:Bashインラインスクリプト

    Inline bash script containing an automation of the manual tasks to optimize the local storage

    説明: ルートパーティションのディスク使用量をチェックし、使用量が80%を超えた場合に、古いログファイルの削除やパッケージキャッシュのクリアなどのクリーンアップを実行します。

    利点

    • ディスク容量管理の自動化によるアプリケーションのクラッシュ防止
    • 手動介入のコスト削減
    • システムの安定性向上

    パッチの展開

    概要: Linuxシステムの脆弱性は、悪用される前に迅速にパッチを適用する必要があります。この自動化タスクでは、脆弱性が検出された際に自動的にセキュリティパッチを適用します。

    トリガー:スケジュール/イベント駆動/手動実行

    使用技術:Ansible Inline

    Ansible inline playbook to apply security patches.

    説明: このプレイブックは、Linuxシステム上のすべてのパッケージを更新します。脆弱性が検出された時や定期的なスケジュールで実行するように設定できます。

    利点: セキュリティパッチを迅速に適用することで、脆弱性の期間を最小限に抑え、潜在的な攻撃から保護します。

    4. Kubernetesのスケーリング

    概要: Kubernetes環境では、特にピーク時の使用量やリソース使用量が低下した際に、Deploymentのスケールアップ/ダウンが重要になります。この自動化タスクでは、現在の需要に合わせてDeploymentをスケーリングし、最適なリソース使用量を確保します。

    トリガー:手動/イベント駆動

    使用技術:Kubernetesプラグイン

    Inline Kubernetes pod scaling.

    説明: このスクリプトは、Deploymentの現在のReplica数を確認し、必要に応じて定義された最大数までスケールアップしたり、需要が低い時期にはスケールダウンしたりします。

    利点: 需要に応じてDeploymentを動的にスケーリングすることで、リソースの使用を最適化します。これにより、ピーク時のパフォーマンスを維持しながら、インフラのコストを削減することができます。

    5. セキュリティインシデントへの対応

    概要: 不正アクセスの試みなどのセキュリティインシデントには、即座の対応が必要です。検知されたインシデントへの対応を自動化することで、セキュリティ体制を強化します。専用のSIEMツールも存在しますが、Runbook Automationを活用することで、ブロックや隔離のプロセスを強化できます。

    トリガー:インシデント/イベント

    使用技術:Lambda Invoke

    Lambda invocation plugin, with keystore and parameter configuration.

    説明: このLambda関数は、不正なIPアドレスを入力として受け取り、セキュリティグループルールを追加してそのIPアドレスをブロックします。

    利点: インシデント対応を自動化することで、対応時間を短縮し、侵害のリスクと潜在的な被害を最小限に抑えます。

    6. データベースのメンテナンス

    概要: データベースの健全性を維持する例として、PostgreSQLでは不要なデータをクリーンアップしストレージを回収するために定期的なバキューム処理が必要です。これによりデータベースのパフォーマンスを最適な状態に保ちます。

    トリガー:手動実行/イベント駆動/スケジュール

    使用技術:SQL Run Stepプラグイン

    SQL Query Run plugin. Allows reusable queries to be provisioned.

    説明: このスクリプトは、ストレージの回収と不要なデータのクリーンアップを行うことで、PostgreSQLデータベースのパフォーマンスを最適化するバキューム操作を実行します。

    利点: 定期的なメンテナンスタスクを自動化することで、データベースの最適なパフォーマンスと長期的な安定性を確保し、手動作業を削減しながらパフォーマンスの問題を防止します。

    7. Terraformを使用したIaCドリフトの修正

    概要: クラウドネイティブな環境では、安定性を確保するために一貫した設定が必要です。この自動化タスクは、設定が望ましい状態から逸脱した場合に修正アクションを適用します。

    トリガー:インシデント/イベント駆動

    使用技術:Terraform

    Inline Terraform file, with application and approval

    説明: このTerraformスクリプトはAWS EC2インスタンスを定義します。この設定からのドリフトは、terraform planを再適用することで修正できます。

    利点: クラウドインフラの一貫性を維持し、予期せぬ停止やセキュリティ脆弱性につながる可能性のある設定のドリフトを最小限に抑えます。

    8. バックアップと復旧の自動化

    概要: 定期的なバックアップはビジネス継続性において重要です。自動化されたバックアップにより、データの確実な復旧を可能にします。

    トリガー:スケジュール

    使用技術:Command step

    Packaged AWSCLI Commands

    説明: このスクリプトは、RDSインスタンスの日次スナップショットを作成し、必要な際にデータを復旧できるようにします。認証情報はIAMを使用するか、キーストアから安全に渡すことができます。

    データ損失のリスクを軽減し、災害復旧能力を向上させ、ビジネスの中断を最小限に抑えます。

    利点: 未使用のリソースを自動的に停止することでクラウドコストを削減し、不要な支出を最小限に抑え、リソース利用を最適化します。

    9. リソースの最適化とコスト管理

    概要: 非効率なリソースは不要なコストを発生させます。自動化された最適化により、コストを削減します。

    トリガー:スケジュール/イベント駆動/手動実行

    使用技術:Pythonスクリプト

    Inline Python scripts can be scheduled and executed

    説明: このPythonコードは、24時間以上実行され、自動停止のタグが付けられたEC2インスタンスを停止することで、リソースの使用を最適化します。

    利点: SSL証明書の期限切れによるサービス停止を防ぎ、安全な通信を維持することで、顧客の信頼とサービスの信頼性を確保します。

    10. SSL証明書の有効期限チェック

    概要: ユーザーとサービス間の安全な通信を維持するために、SSL証明書を最新の状態に保つことは重要です。この自動化タスクは、指定されたURLのSSL証明書の有効期限をチェックし、設定された日数以内に期限切れとなる場合に警告を提供します。

    トリガー:スケジュール/イベント駆動/手動実行

    使用技術:Bashスクリプトプラグイン

    SSL Checking Script and notification

    説明: このスクリプトは、指定されたURLのSSL証明書の有効期限をチェックします。証明書が設定された警告日数以内に期限切れとなる場合、警告メッセージを表示します。

    11. Windowsサーバーの再起動対応

    概要: パッチの適用、パフォーマンスの問題解決、設定変更の適用のために、Windowsサーバーの再起動が必要になる場合があります。この自動化タスクは、PowerShellを使用してWindowsサーバーをイベント駆動で遠隔再起動します。

    トリガー:インシデント/イベント駆動

    使用技術:PowerShellスクリプト

    Powershell scripts can be executed locally or remotely via runner architecture

    説明: このPowerShellスクリプトは、$ServerNameで指定されたWindowsサーバーを遠隔で再起動します。-Forceフラグにより、ユーザーがログインしていても再起動を実行し、-Waitにより300秒のタイムアウトで再起動プロセスを監視します。

    利点: パッチ適用やパフォーマンス改善のためのサーバー再起動を自動化することで、システムの可用性を向上させ、ダウンタイムと手動メンテナンスの工数を最小限に抑えます。

    まとめ

    イベント駆動型自動化は、組織のIT環境管理の方法を変革し、予防的かつ効率的な問題解決を可能にします。これらの自動化タスクを実装することで、組織は運用の回復力、セキュリティ、コスト効率を向上させ、チームは戦略的な取り組みにより多くの時間を費やすことができます。

    PagerDuty Runbook Automationは、クラウド/ハイブリッドおよびセルフホスト型プラットフォームにおいて、既存および将来の自動化に対する共通のアプローチを標準化することを支援します。最新のアーキテクチャと従来のアーキテクチャの両方に対応したプラグインを提供しています。

    Automation Content Libraryのご紹介

    自動化を始めたばかりの方からすると、一体何から手をつければいいか分からなくなってしまうこともあるでしょう。そこで、Automation Content Libraryを公開しました。

    このライブラリは、よくあるタスクにおける自動化の方法をステップバイステップで紹介しています。実績のある自動化手法を参考にしていただくことで、みなさまがスムーズに自動化を実現できるよう支援いたします。是非、ご活用下さい。

    PagerDutyを14日間無料で試してみる

    700以上ものツールと連携。システム障害を自動的に検出・診断するだけでなく、適切な障害対応メンバーをアサインし、デジタル業務全体の修復ワークフローを自動化します。

    PagerDutyイメージ

    この記事が気になったら

    • Facebook
    • LinkedIn
    • twitter
    • はてなブックマーク

    PageDuty公式アカウントをフォロー

    • Facebook
    • LinkedIn
    • twitter

    関連ブログ記事関連ブログ記事

    検索検索
    タグタグ
    インシデントをより早く・少ないリソースで解決
    閉じる
    システム障害対応の未来を徹底議論する年に1度の祭典
    AIと自動化活用による新時代のシステム運用革命
    2025. 04/10(木)13:00 - 20:30
    開催場所:虎ノ門ヒルズフォーラム
    事前登録はこちら