İçeriğe geç
Tüm roadmap'e dön
topiccore

Agent Regression Testing

Her prompt/model değişikliğinde 100-200 eval task'ı çalıştır — regression engelle.

2 saat1 kaynak1 önkoşul

CI/CD pipeline'ı agent için:

  1. PR açılır (prompt / tool / model değişikliği)
  2. Eval dataset (100-200 task) otomatik çalışır
  3. Geçen ana branch baseline'a karşı diff'lenir
  4. Success rate düşüş > %3 ise PR block (manual review)
  5. Trajectory diff: hangi task'lar yeni şekilde fail oldu?

Stack: Promptfoo (yes, agent eval'i de yapar), LangSmith evaluations, custom GitHub Actions workflow.

Önce bunları bil

Kaynaklar(1)