本番 DB 500 万行誤削除インシデント対応インタビュー問題¶
問題¶
DELETE クエリが誤って 500 万行を削除。
バックアップは存在するが完全復元に 4 時間かかる。
CEO は 30 分以内の復旧を要求。あなたならどうする?
30 分以内に取りうる手段¶
| 手段 | 内容 | 所要時間 |
|---|---|---|
| Read Replica の活用 | 削除が伝搬していないレプリカをプライマリに昇格 | 数分〜十数分 |
| PITR(Point-in-Time Recovery) | WAL/バイナリログから削除直前まで巻き戻し | ログ量に依存 |
| 部分復旧 | 対象テーブルのみスナップショットから復元 | 完全復元より短縮可能 |
| アプリ側の一時ダウングレード | 削除済み機能を一時無効化して他機能は継続 | デプロイ次第 |
インシデント対応フロー¶
(図: SVG)