İçeriğe geç

Eval Setleri ve LLM-as-Judge

Üretim kalitesini ölçen eval setleri tasarlamak: oluşturma, dengeleme, otomatik puanlama (LLM-as-judge), insan kalibrasyonu.

Şükrü Yusuf KAYA
13 dakikalık okuma
İleri
Eval pipeline: dataset → run → judge → dashboard
Eval'siz üretim — körü körüne uçmak
Üretime aldığın bir Claude pipeline'ının kalitesini ölçemiyorsan, bozulduğunu da bilemezsin.

Eval Setinin 4 Katmanı

  1. Dataset: Gerçek dünyadan örnekler + edge case + adversarial.
  2. Metric: Doğruluk, format uyumu, halüsinasyon, ton, latency, maliyet.
  3. Judge: Otomatik (LLM, kural tabanlı) + insan örneklemesi.
  4. Dashboard: Trend, regression alarm, prompt sürümü kıyas.
python
# Mini eval runner
def f1(p, r):
return 2*p*r/(p+r) if (p+r) else 0
 
scores = [
{"id":"t1","precision":0.92,"recall":0.88},
{"id":"t2","precision":0.84,"recall":0.91},
{"id":"t3","precision":0.78,"recall":0.66},
]
for s in scores:
s["f1"] = round(f1(s["precision"], s["recall"]), 3)
print(s)
F1 skor hesaplayan mini eval — büyük setlerde aggregate et.
Boşluk doldur · text
Eval setinin 4 katmanı: dataset, _____ , judge ve _____ . LLM-as-judge'ı haftada bir _____ ile kalibre et. Dengeyi 60/20/20 oranında real / _____ / adversarial olarak tut.

Sık Sorulan Sorular

Evet — CI'ya entegre et. Pipeline değişikliği olmadığı sürece her gece smoke run, her PR'da tam run.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler