活用シナリオ

BCP対応の自動化による業務改善

Ansibleの活用により、属人化排除と復旧時間の短縮を実現したケーススタディ

  • サーバー運用自動化
  • 災害対策

導入背景

災害発生時にサービスが継続できるよう、属人化排除と復旧時間の短縮を目指しAnsibleによる自動化を検討。
自動化の専属担当者をつけなくても、システム導入を進められる支援を求めた。

導入前の課題

  • BCP訓練の復旧に8時間以上かかり、SLA(2時間以内)を大きく超過
  • 手順が複雑で、教育・引き継ぎが困難
  • 他チームとの調整に時間がかかり、迅速な対応ができない
  • 訓練は年1回のみで、対応力が養われない

導入効果

  • 復旧時間の大幅短縮

    8時間以上かかっていたシステム復旧を 1.5時間に短縮。

  • 訓練頻度の向上

    年1回だった訓練を年10回に増やし、社員の対応力アップ。

  • 作業品質の均一化

    有事の状況下において、誰でも正確な対応ができる。

  • 他システムへの応用

    Playbookの一部を書き換えることで他システムのBCP対応も自動化が可能。

Before
Before
After
Before

以前は、①東京側サーバーの停止、②大阪側サーバーの起動、③サービス動作確認までをDB、AP、WEBのそれぞれの担当者が実施していた。停止手順は複雑でDB、AP、WEBごとにサーバー台数が異なるため、担当分が早く停止できても他の担当者の完了を待つ必要があった。そのため多くの人手と作業時間が発生していた。
自動化後は切替えまでの手順をすべてのサーバーに対してAnsibleで自動実行できるようになった。
そのため、今では担当者1名がAnsibleを実行し完了後に動作確認をするだけに変わり、復旧時間の大幅短縮と属人化の排除を達成することができた。

ライトウェルの
支援内容

  • 自動化の設計支援

    誰でも扱える自動化環境を設計

  • Ansible実行環境の導入

    2ヶ月で自動化の立ち上げに成功

  • 手順書のPlaybook化

    複雑な手順をシンプルにコード化

  • 運用定着化を支援

    QAサポートはもちろん、Playbook開発のノウハウも提供


Page
Top