SRE本読書メモ 15章: ポストモーテム文化。非難のない振り返りが改善を生む

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

非難のない振り返り

googleでは、インシデントから学びを得るために ポストモーテム (検死) と呼ばれる振り返りを行う文化がある

なんで非難しない振り返りが重要なの?

  • 非難は人が変わることを強要することだが、人は人を変えることはとても難しい
  • 人を変えることは出来ないが、その人が正しい判断をすることを助ける仕組みを作ることはできる
  • 非難を避けようと、インシデントや問題を隠蔽するようになる

ヘスルスケアや航空業界など、些細なミスが大事故に繋がる業界で生まれた文化

ポストモーテムの意義

  • 再発の可能性を削減するための効果的な予防策が確実に導入されること
  • 記録することで、他のチームもそれを参照して、問題を予防できるようになる

ポストモーテムのゴール

ポストモーテムのゴールは事前にチームメンバーに共有されていることがだいじ

  • 後々の分析のために必要なデータは収集されていること
  • サービスへの影響(インパクト)の分析が完全に行われていること
  • 根本原因がしっかり分析されていること
  • アクションプランの内容と優先度は適切であること
  • 結果をステークホルダーに共有できていること

ゴールの条件を満たしているか、かならず上級エンジニアからのレビューを受けること

ポストモーテムのテンプレ

* 作成日:
* 作者:
* ステータス: (現在のステータスを書く
* サマリ: (概要を書く
* 根本原因:  (発生要因に書かれた現象が発生した根本的な原因を書く
* 発生要因: (例: トラフィック突然の増加で表面化した潜在的なバグ
* 対応: 
* 検出: (なにを検出した事でインシデントに気づいたか?
* アクションアイテム: (改善、再発防止の為に取る/取ったアクションの一覧

# 教訓
## うまくいったこと
## うまくいかなかったこと
## 幸運だったこと

# タイムライン

(発生から改善までの時系列を書く

# 参考情報

感想

  • 「人を変えることは出来ないが、その人が正しい判断をすることを助ける仕組みを作ることはできる」だいじ
  • 他チームへの共有を意識したポストモーテムだいじ