分散した監視ツールを Datadog に集約。Workflow Automation と Bits AI SRE で実現する運用自動化と障害対応の高度化

アイレット株式会社

https://www.iret.co.jp/

システム開発

アイレット株式会社

課題

  • 複数の監視ツールを組み合わせた運用となっており、より統合的な状況把握を求めていた。
  • 未知の障害や複数要因が絡む事象への対応において、担当者個人の経験やスキルに依存しない体制の構築が必要だった。
  • 既知障害への定型対応は自動化されていたが、調査・原因特定のフェーズは手動で実施する必要があり、運用担当者の作業負荷が高かった。
矢印

対応と結果

  • Datadog を中心とした統合監視基盤への移行により、インフラからアプリケーション層までを横断的に可視化する体制を構築。監視プロセスを一元化。
  • アラート発生時の一次情報収集から課題起票までを Workflow Automation で自動化し、初動対応の標準化と迅速化を実現。
  • 監視・ログ・APM・セキュリティデータを一元化し、AI による横断分析と原因仮説の提示が可能な運用基盤を確立。

アイレットは、コーポレートサイト「iret.co.jp」の監視基盤を再設計し、Datadog を中心とした統合運用基盤への移行に取り組みました。本プロジェクトでは、監視項目の棚卸しから段階的な移行、運用自動化までを実施し、統合的な可視化と初動対応の標準化・迅速化を実現しました。

分散した監視体制からの脱却。AI 活用を前提とした統合運用基盤への進化を目指す

従来の「iret.co.jp」の運用では、複数の監視ツールを組み合わせた分散型の構成が採用されていました。既知障害に対しては、事前に定義された手順やシナリオに基づく定型対応が自動化されていましたが、未知の障害や複数要因が絡む事象が発生した場合には、担当者がログ・メトリクス・APM などを横断的に確認しながら原因箇所を特定する必要がありました。そのため、対応品質やスピードは担当者個人の経験に左右されやすい状況でした。

本取り組みは、単なるツール移行ではなく、監視・自動化・セキュリティデータを統合し、AI 活用を前提とした運用モデルへ進化させるための基盤再設計として位置づけています。既知対応の自動化に加え、未知障害への調査・分析まで対応可能な統合運用基盤の確立を目指しました。

Datadog への段階的移行と Workflow Automation による初動対応の自動化。Bits AI SRE で未知障害への対応力を強化

最初に実施したのは、監視項目の棚卸しと重要度の再定義です。Critical / Warning の基準を整理し、通知設計を見直すと共に、監視項目一覧および Integration Mapping を整備し、運用フローを明文化しました。その上で、Datadog を中心とした監視基盤へ段階的に移行。Infrastructure Monitoring、Logs、APM、Dashboards を活用し、インフラからアプリケーション層までを横断的に可視化できる構成へ再設計しています。

なお、中核となったのが Workflow Automation(WA)の活用です。アラート発生時に対象 Amazon EC2 ホストを自動取得し、SSM コマンドによる一次情報収集を実行、その結果をもとに Backlog へ自動課題起票を行なう仕組みを構築しました。WA 自体の失敗検知モニターも実装し、自動化フローの健全性も担保しています。これにより、既知障害に対する定型的な初動対応が自動化され、担当者は収集済み情報をもとに迅速な判断と対応へ直接移行できる体制が整いました。

あわせて Security Monitoring 機能も有効化。Cloud Security Management Vulnerabilities(CSM Vulnerabilities)によりホスト単位の脆弱性やパッケージリスクを可視化し、CSPM により AWS 設定のセキュリティ状態を俯瞰できる基盤を構築しています。さらに、監視・ログ・APM・セキュリティデータを一元化したことで、AI が横断的に分析できる土台が整備されました。この基盤上で Datadog の Bits AI SRE 機能を活用し、発生したアラートに関連するメトリクス・ログ・変更履歴などを横断的に分析し、相関関係の提示や原因仮説の生成を支援できる環境を構築しています。プロセス自体を増やすのではなく、同一プロセスの中で対応可能な範囲を拡張する設計となっています。

本取り組みにより、初動対応プロセスの標準化と情報収集時間の短縮が見込まれる体制が整備されました。インフラおよびアプリケーションを横断した統合的な状況把握が可能となり、障害発生時の切り分け速度向上が期待できる基盤を確立。既知障害の迅速化に加えて、未知障害への初動対応を高度化できる運用基盤へと進化しています。これにより、運用の再現性と拡張性を両立する基盤が整備されています。

今後は CSM Vulnerabilities や CSPM の運用組み込みを進め、セキュリティリスクの継続的な管理体制を強化していく予定です。Runbook や Notebook の整備によるアラート対応のさらなる標準化、Bits AI SRE をはじめとした AI 機能の活用拡大も計画されています。

監視ツールの分散による運用負荷に課題を感じている方、障害対応の属人化を解消し初動対応を標準化したい方、さらには AI を活用した次世代の運用モデルを検討されている方は、ぜひお気軽にアイレットへご相談ください。

使用プロダクト

  • ・AWS
    • Amazon EC2
    • Amazon RDS
    • Amazon VPC
    • ALB(Application Load Balancer)
    • Amazon Route 53
  • ・Datadog
    • Infrastructure Monitoring
    • Logs
    • APM
    • Dashboards
    • Workflow Automation
    • Security Monitoring(Vulnerability Management / CSPM)
    • Bits AI SRE

Credit

クライアントアイレット株式会社