SRE本読書メモ エラーバシェットの話しを読んで、明確な数値目標は意思決定コストを下げると思った

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

なぜ数値目標を決めるのが大事か?

明確な数値目標は、意思決定コストを下げる

数値を決めることで意思決定コストが下がる例

  • エラーバシェット

エラーバシェットとは?

チーム内で合意が取れた、一定期間内に許容できる予定外のシステムダウン時間の合計

なぜエラーバシェットがあるのか

機能追加と信頼性向上どちらに注力するか悩むことが無くなる

  • エラーバシェットに余裕がある間は、機能追加にリソースを割く
  • 逆に、いまのままだとエラーバシェットが無くなりそうならば、信頼性向上にリソースを割く

信頼性向上の施策の優先順位に悩むことが無くなる

たとえば、ある障害のリカバリに掛かる時間が、どれだけエラーバシェットにインパクトを与えるか? で判断できるようになる

  • エラーバシェットが15分なのに、リカバリに30分掛かるならば、それは必ず自動化すべきと判断できる

過剰な信頼性向上をしなくなる

  • SLA 100%は実現不可能
  • 一定以上信頼性を上げるのには、指数関数的に開発コストが上昇する

感想

  • スプリント計画時にエラーバシェットをチェックすると、次やるべきことが明確になりそう