コンテンツにスキップ

DevOps/SRE実践用語:シフトレフト・エラーバジェット・Toil・ゴールデンシグナル

概要

DevOps/SRE ポジションで使う実践的な用語集。

詳細

Shift Left(シフトレフト)

開発・テスト・セキュリティのチェックを 開発サイクルの早い段階 に移動させること。

従来: 開発 → テスト → ステージング → 本番 → 問題発見(遅い)
シフトレフト: コード作成時点でリント・テスト・SAST → 早期に問題を潰す

Error Budget(エラーバジェット)

SLO(目標)から算出される「許容される障害の余裕」。

SLO: 月間 99.9% の可用性
    ↓ 計算
Error Budget = 1 - 0.999 = 0.1% = 月43分の障害なら許容範囲

使い方:
  バジェット残: 開発チームはフィーチャーを積極的にリリース可能
  バジェット枯渇: 新リリースを止めて信頼性改善にフォーカス

Toil(トイル)

手動で繰り返し行う、自動化できるはずの運用作業。

Toil の特徴:
  ・手動で行っている(スクリプトを手動で実行など)
  ・繰り返し発生する
  ・ビジネス価値を生まない(やらないと困るが、やっても前進しない)

Toil を減らす方法:
  → スクリプト化 → CI/CD パイプライン → Terraform/Ansible による自動化

Golden Signals(ゴールデンシグナル)

Google SRE Book が定める「監視の4指標」。

1. Latency(レイテンシ)
   → 正常リクエストの応答時間
   → P99(99パーセンタイル)を見ることが重要

2. Traffic(トラフィック)
   → リクエスト数、データ転送量

3. Errors(エラー率)
   → HTTP 5xx の割合、失敗率

4. Saturation(サチュレーション)
   → リソースの使用率(CPU・メモリ・ディスク)
   → 100% に近づくとパフォーマンスが劣化し始める

この4つをまず監視すると、「どこが壊れているか」を素早く判断できる。

なぜ重要か / いつ使うか

  • SRE/DevOps 面接の準備
  • インシデント発生時の初動調査(ゴールデンシグナルを見る)
  • チームのエラーバジェットポリシーを策定するとき
  • 運用の自動化計画でトイルを識別するとき