Eval seti her prompt değişikliğinde tekrar koşar mı?

Eval Setleri ve LLM-as-Judge

Üretim kalitesini ölçen eval setleri tasarlamak: oluşturma, dengeleme, otomatik puanlama (LLM-as-judge), insan kalibrasyonu.

Şükrü Yusuf KAYA

13 dakikalık okuma

11.05.2026

İleri

Eval pipeline: dataset → run → judge → dashboard

Eval'siz üretim — körü körüne uçmak

Üretime aldığın bir Claude pipeline'ının kalitesini ölçemiyorsan, bozulduğunu da bilemezsin.

Eval Setinin 4 Katmanı

Dataset: Gerçek dünyadan örnekler + edge case + adversarial.
Metric: Doğruluk, format uyumu, halüsinasyon, ton, latency, maliyet.
Judge: Otomatik (LLM, kural tabanlı) + insan örneklemesi.
Dashboard: Trend, regression alarm, prompt sürümü kıyas.

python

# Mini eval runner
def f1(p, r):
    return 2*p*r/(p+r) if (p+r) else 0
 
scores = [
    {"id":"t1","precision":0.92,"recall":0.88},
    {"id":"t2","precision":0.84,"recall":0.91},
    {"id":"t3","precision":0.78,"recall":0.66},
]
for s in scores:
    s["f1"] = round(f1(s["precision"], s["recall"]), 3)
    print(s)

F1 skor hesaplayan mini eval — büyük setlerde aggregate et.

Boşluk doldur · text

Eval setinin 4 katmanı: dataset, _____ , judge ve _____ . LLM-as-judge'ı haftada bir _____ ile kalibre et. Dengeyi 60/20/20 oranında real / _____ / adversarial olarak tut.

Sık Sorulan Sorular

Evet — CI'ya entegre et. Pipeline değişikliği olmadığı sürece her gece smoke run, her PR'da tam run.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

9. Üretim Ortamı

Eval Setinin 4 Katmanı

Sık Sorulan Sorular