Tüm roadmap'e dön
topiccore
Agent Regression Testing
Her prompt/model değişikliğinde 100-200 eval task'ı çalıştır — regression engelle.
2 saat1 kaynak1 önkoşul
CI/CD pipeline'ı agent için:
- PR açılır (prompt / tool / model değişikliği)
- Eval dataset (100-200 task) otomatik çalışır
- Geçen ana branch baseline'a karşı diff'lenir
- Success rate düşüş > %3 ise PR block (manual review)
- Trajectory diff: hangi task'lar yeni şekilde fail oldu?
Stack: Promptfoo (yes, agent eval'i de yapar), LangSmith evaluations, custom GitHub Actions workflow.