Eval Sets and LLM-as-Judge
Design eval sets that measure production quality: building, balancing, auto-scoring (LLM-as-judge), human calibration.
Şükrü Yusuf KAYA
13 min read
AdvancedEval'siz üretim — körü körüne uçmak
Üretime aldığın bir Claude pipeline'ının kalitesini ölçemiyorsan, bozulduğunu da bilemezsin.
Eval Setinin 4 Katmanı
- Dataset: Gerçek dünyadan örnekler + edge case + adversarial.
- Metric: Doğruluk, format uyumu, halüsinasyon, ton, latency, maliyet.
- Judge: Otomatik (LLM, kural tabanlı) + insan örneklemesi.
- Dashboard: Trend, regression alarm, prompt sürümü kıyas.
python
# Mini eval runnerdef f1(p, r): return 2*p*r/(p+r) if (p+r) else 0 scores = [ {"id":"t1","precision":0.92,"recall":0.88}, {"id":"t2","precision":0.84,"recall":0.91}, {"id":"t3","precision":0.78,"recall":0.66},]for s in scores: s["f1"] = round(f1(s["precision"], s["recall"]), 3) print(s)F1 skor hesaplayan mini eval — büyük setlerde aggregate et.
Boşluk doldur · text
Eval setinin 4 katmanı: dataset, _____ , judge ve _____ . LLM-as-judge'ı haftada bir _____ ile kalibre et. Dengeyi 60/20/20 oranında real / _____ / adversarial olarak tut.Frequently Asked Questions
Yes — integrate with CI. Smoke run nightly, full run on each PR.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...