コンテンツにスキップ

EvalはAI時代の新しいPRD:非決定論的システムの品質管理とフライホイール設計

概要

従来のPRDは「仕様を書き→作り→検証する」決定論的なループを前提にしている。AIは非決定論的であり、同じプロンプトが毎回異なる出力を生む。この構造的な違いから、AIプロダクトではEval(評価スイート)がPRDの役割を担うべきだという主張。EvalはCI/CDに統合されプロダクション観測データで継続的に改善される「フライホイール」になる。

詳細

従来のPRD vs Evalの対応関係

PRDのセクション Evalの対応
要件定義 測定可能なシグナルとして定義
受け入れ基準 Pass/Failの自動テストとして実装
ロードマップ 改善目標(どのスコアをいくつ上げるか)
成功指標 本番データから継続取得するメトリクス

「PRDはGoogle Docで埃をかぶる。Evalスイートは全コミットで動く」

AI開発の新しいループ

1. PM が「良い」の定義を構造的・反復可能なテストとして定義(Eval作成)
2. チームがEvalを目標にヒルクライム(プロンプト・RAG・ツール・モデルを改善)
3. 品質バーをクリアしたらリリース
4. 本番データを観測 → 新しいFailureケースをEvalに追加
5. 2に戻る

具体例:料理動画からレシピ生成機能

PRDの書き方(曖昧):
  「helpful で accurate であること」
  → 何をもって pass とするかが不明

Evalの書き方(測定可能):
  1. フォーマットチェック    → 食材 → 手順の順になっているか(AIジャッジ)
  2. 食材の網羅性チェック   → 動画に登場した食材がすべて含まれるか(文字列マッチ)
  3. 手順の可読性チェック   → 短い文で書かれているか(AIジャッジ)

エンジニアへの指示:「この数字を上げてください」

3種類のEvalジャッジ

種類 用途 特徴
アルゴリズム 文字列マッチ、フォーマット検証、長さ制約 高速・安価・完全に信頼可能
AIジャッジ トーン・有用性・一貫性などの主観的評価 スケーラブルだが人間のキャリブレーション必要
AIジャッジ+人間アライメント 主観的判断が必要な深い品質評価 実装難易度高いが複雑な品質次元に対応

Evalフライホイールの4段階

Stage 0 → "Vibes"
  手動スポットチェック・直感・クレーム対応のみ
  → 盲目で飛行中

Stage 1 → テストセット(リアクティブ)
  Pass/Failのテストセット、リリース前に手動実行
  → 改善だが依然として後手

Stage 2 → CI/CD統合(プロアクティブ)
  自動実行・品質バーでリリースをブロック
  → 品質を組織的に担保

Stage 3 → フライホイール(複利的)
  本番データが継続的にEvalスイートに流入
  本番障害 → 自動でテストケース化 → 毎週改善
  → 複利的な競争優位

PMの週次サイクル

月曜: 本番トレースを確認 → 20件の問題ある出力をフラグ
火曜: 20件を5つのEvalケースに絞る → Evalスイートに追加
水曜: 先週モデルと今週候補でフルEvalを実行
木曜: 差分を確認 → データが出荷可否を決める
金曜: フライホイールが速くなった

よくある失敗パターン

  • 「汎用的な知性」を測ろうとする(具体的なタスクに絞ること)
  • 設計に多くのステークホルダーを巻き込みすぎる
  • サードパーティEvalを検証せずに信頼する
  • ローンチ時だけ実行して止める
  • Evalスコアを最適化してしまう(グッドハートの法則)

なぜ重要か / いつ使うか

  • AIプロダクトのPMがどこに時間を使うべきか判断するとき
  • 「AIの品質をどう担保するか」をエンジニアリングチームに説明するとき
  • CI/CDパイプラインにEvalを組み込む設計を始めるとき
  • 「PRDを書くべきか、Evalを書くべきか」で迷ったとき