活用シナリオ

BCP対応の自動化による業務改善
Ansibleの活用により、属人化排除と復旧時間の短縮を実現したケーススタディ
- サーバー運用自動化
- 災害対策
導入背景
災害発生時にサービスが継続できるよう、属人化排除と復旧時間の短縮を目指しAnsibleによる自動化を検討。
自動化の専属担当者をつけなくても、システム導入を進められる支援を求めた。
導入前の課題
- BCP訓練の復旧に8時間以上かかり、SLA(2時間以内)を大きく超過
- 手順が複雑で、教育・引き継ぎが困難
- 他チームとの調整に時間がかかり、迅速な対応ができない
- 訓練は年1回のみで、対応力が養われない
導入効果
-
復旧時間の大幅短縮
8時間以上かかっていたシステム復旧を 1.5時間に短縮。
-
訓練頻度の向上
年1回だった訓練を年10回に増やし、社員の対応力アップ。
-
作業品質の均一化
有事の状況下において、誰でも正確な対応ができる。
-
他システムへの応用
Playbookの一部を書き換えることで他システムのBCP対応も自動化が可能。


以前は、①東京側サーバーの停止、②大阪側サーバーの起動、③サービス動作確認までをDB、AP、WEBのそれぞれの担当者が実施していた。停止手順は複雑でDB、AP、WEBごとにサーバー台数が異なるため、担当分が早く停止できても他の担当者の完了を待つ必要があった。そのため多くの人手と作業時間が発生していた。
自動化後は切替えまでの手順をすべてのサーバーに対してAnsibleで自動実行できるようになった。
そのため、今では担当者1名がAnsibleを実行し完了後に動作確認をするだけに変わり、復旧時間の大幅短縮と属人化の排除を達成することができた。
ライトウェルの
支援内容
-
自動化の設計支援
誰でも扱える自動化環境を設計
-
Ansible実行環境の導入
2ヶ月で自動化の立ち上げに成功
-
手順書のPlaybook化
複雑な手順をシンプルにコード化
-
運用定着化を支援
QAサポートはもちろん、Playbook開発のノウハウも提供