ガイドトラブルシューティングインシデント対応

サーバー障害対応チェックリスト - ダウン発生時の7ステップ

サーバーダウン・障害発生時の対応手順を7ステップで解説。影響範囲の特定、ログ確認、再起動、バックアップ復旧、ポストモーテムまでのベストプラクティス。

UpGuardian Team

TL;DR

サーバー障害発生時は、①影響範囲の特定 → ②ログ確認 → ③再起動試行 → ④バックアップ復旧 → ⑤外部サポート → ⑥ステータス更新 → ⑦ポストモーテムの順で対応します。このチェックリストを印刷して、緊急時にすぐ参照できるようにしましょう。

障害対応の7ステップ

ステップ1: 影響範囲の特定(最初の3分)

まず、何が影響を受けているかを確認します。

ツール: UpGuardianのダッシュボードで、複数サイトの状態を一覧確認

ステップ2: ログの確認(3〜10分)

サーバーログ、アプリケーションログ、エラーログを確認します。

よくあるログの場所:

ステップ3: 再起動の試行(10〜15分)

ログでエラー原因が特定できない場合、再起動を試みます。

注意: 再起動前に、必ず影響範囲を確認し、本番環境では慎重に実施しましょう。

ステップ4: バックアップからの復旧(15〜60分)

再起動で解決しない場合、バックアップから復旧します。

復旧後の確認:

ステップ5: 外部サポートへの連絡(30分〜)

自力で解決できない場合、外部サポートに連絡します。

連絡時に伝える情報:

ステップ6: ステータスページの更新(障害発生後すぐ)

ユーザーに障害を通知し、対応中であることを伝えます。

テンプレート例:

【障害のお知らせ】
現在、当サービスで障害が発生しており、アクセスできない状態となっております。
復旧作業を進めておりますので、今しばらくお待ちください。
ご迷惑をおかけし、誠に申し訳ございません。
(2026年2月17日 14:30)

ステップ7: ポストモーテム(障害復旧後24時間以内)

障害が復旧したら、必ず振り返りを実施します。

ポストモーテムに含めるべき項目:

障害の主な原因と対処法

1. メモリ不足(OOM Killer)

症状: サーバーが突然応答しなくなる、プロセスが強制終了される

対処法:

2. ディスク満杯

症状: ログファイルが書き込めない、データベースが書き込めない

対処法:

3. SSL証明書の期限切れ

症状: ブラウザで「接続がプライベートではありません」エラー

対処法:

4. DNS設定ミス

症状: ドメイン名でアクセスできないが、IPアドレスではアクセスできる

対処法:

5. データベース接続エラー

症状: 「Database connection failed」エラー

対処法:

障害対応を効率化するツール

1. アップタイム監視ツール

UpGuardianで、障害を即座に検知し、Slack・メール・Webhookで通知します。

2. ログ管理ツール

Better Stack(旧Logtail)やDatadogで、複数サーバーのログを一元管理し、検索・分析できます。

3. インシデント管理ツール

PagerDutyやOpsGenieで、オンコール体制を構築し、担当者へのエスカレーションを自動化します。

4. ステータスページツール

Statuspage.ioやAtlassian Statuspageで、ユーザーに障害状況をリアルタイムで通知します。

障害対応のベストプラクティス

1. Runbook(手順書)を作成

障害が発生する前に、対応手順をドキュメント化しておきます。深夜のアラートでパニックにならないよう、手順を明確にしましょう。

2. オンコール体制の構築

週ごとに担当者を決め、深夜・休日のアラートに対応できる体制を作ります。1人に負担が集中しないよう、ローテーションを組みましょう。

3. 定期的な障害訓練

実際に本番環境の一部を停止させ、復旧手順が機能するかテストします(カオスエンジニアリング)。

4. アラートの優先度設定

すべてのアラートを「Critical」にすると、重要な障害を見逃します。以下のように優先度を設定しましょう:

よくある質問

Q: 障害対応の平均時間(MTTR)はどれくらいですか?
A: 日本企業の平均は6時間12分ですが、グローバル平均は175分(約3時間)です。監視ツールと自動復旧を導入すると、1時間以内に短縮できます。

Q: 深夜のアラートにどう対応すべきですか?
A: まず影響範囲を確認し、Critical(全体ダウン)なら即対応、Warning(一部遅延)なら翌朝対応でOKです。優先度を明確にしましょう。

Q: 障害対応の練習はどうすればいいですか?
A: ステージング環境で意図的にサーバーを停止させ、復旧手順を実践しましょう。四半期に1回の訓練が推奨されます。

まとめ

サーバー障害は避けられませんが、迅速な検知明確な対応手順があれば、ダウンタイムを最小限に抑えられます。UpGuardianで障害を即座に検知し、このチェックリストに沿って対応しましょう。

サーバー監視を始めませんか?

UpGuardianなら5サイトまで無料で監視できます。

無料で始める

関連記事