Eval Tasarımı: Golden Set, Rubric, Coverage

Eval'siz prompt = belirsiz prompt. Golden set inşası, rubric tanımı, kapsam kontrolü.

Şükrü Yusuf KAYA

11 dakikalık okuma

25.06.2026

İleri

Eval-Driven Development#

"If you can't measure it, you can't improve it." — Peter Drucker

Production LLM uygulamalarının %80'i eval'siz çalışıyor. Bu, projenin gerçek doğruluk skorunu bilmediği anlamına gelir.

Golden Set: Eval Veri Seti#

50-500 örnek yeterli. Her biri etiketli + expected output olmalı.

python

# Golden set örneği — sentiment classification
GOLDEN_SET = [
    {
        "id": "g_001",
        "input": "Ürün hızlı geldi, çok memnunum",
        "expected": "olumlu",
        "category": "easy",  # easy | medium | hard
        "tags": ["positive", "shipping"]
    },
    {
        "id": "g_002",
        "input": "Geç geldi ama paketleme harika",
        "expected": "nötr",  # karma — model'i sınar
        "category": "hard",
        "tags": ["mixed", "shipping"]
    },
    # ... 50-500 arası
]

Golden set veri yapısı

Rubric: Subjektif Görevler İçin#

Sınıflandırma gibi binary değil, "iyi yazım" gibi subjektif görevler için rubric lazım:

text

# RUBRIC: Müşteri destek email yanıtı
 
1. Empati (0-3 puan)
   0 = empatik dil yok
   1 = standart "üzgünüm"
   2 = duruma özel empati
   3 = derin empati + bağlantı
 
2. Çözüm Netliği (0-3)
   0 = çözüm yok
   1 = belirsiz, "size dönerim"
   2 = somut adım var
   3 = adım + zaman + alternatif
 
3. Tone Uyumu (0-2)
   0 = brand voice'tan kayma
   1 = nötr, ama uygun
   2 = brand voice'a tam uygun
 
4. Eylem Edilebilirlik (0-2)
   0 = anlamlı eylem yok
   1 = sonraki adım gizli
   2 = açık CTA + link/no
 
Toplam: 10 puan
Geçer: 7+

Rubric örneği

Coverage: Kör Nokta Yok#

Coverage Boyutları#

Difficulty: Easy (40%), Medium (40%), Hard (20%)
Categories: Tüm intent'ler temsil
Edge cases: Empty input, çok uzun, multilingual, special chars
Adversarial: Injection denemeleri
Demographic diversity: İsim/bölge çeşit

Anti-Pattern: Cherry Picking#

Sadece "kolay 30 örnek" eval production'da çuvallar.

✅ Production trafiğinden örnekle (anonim) ✅ Edge case'leri kasıtlı ekle ✅ Yeni hata örnekleri sürekli ekle (regression test)

Production örnekle: Logged real traffic'ten random örnekle. PII strip et. Etiketle. Bu, "synthetic eval"'den çok daha temsilî.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

1. Temeller — Yapay Zekâ ve LLM'lere Giriş