【読書】ポストモーテム みずほ銀行システム障害事後検証報告
みずほ銀行の2021年2月から2022年2月までに起きたシステム障害についてまとめた本。
ポストモーテムとはシステム障害が発生したあとに社内外に共有する事後検証報告書のことを指す。
業界は違えどシステムと関わる仕事をしてるので読んでよかったと思えた本。
個人的な本からの学び
- 失敗から学ぼう
- システム障害は起こるものと考える(高可用性と耐障害性大事)
- 障害が起きた時の復旧手順(問題検知から解決まで)をまとめるか、自動で復旧できることをテスト
本のメモ
- 1年以上記帳がない預金口座の紙の通帳を廃止することで、年間16億円の印紙税を削減を見込んでいた
- インデックスファイルの容量起因で、1日の更新数に上限があったが、テストでは上限より少ない数でテスト
- 情報共有を会議室で行ってた
- 監視担当者からの情報伝達は、エラーメッセージIDを印刷してオペレータに報告
- 安定稼働を目指す場合、クエリの実行計画を変更しない運用を行うケースもある
- SNSの書き込みで炎上がないかをチェックする仕組みがある
- 積極的に声を上げて責任問題になるリスクより、自分持ち場でやれることのみをやってた
→組織が大きくなればなるほどありそうな問題
- 疎結合とグローバルトランザクションという相容れない2つを同時に追求
→ここが原因で今後も問題起きそうだけどどう対応するのか気になるところ
- マルチベンダー制の採用
- ASISの要件定義によりMINORIの開発が遅れた
- 2004年から2010年にかけてアーキテクチャーの検討をしてたためCOBOLを採用
→アーキテクチャや使用言語などは変化が早いところ
- 運用部門で定期的にシステム障害対応訓練を他のメガバンクでは行ったりしてる