İçeriğe geç

Eval Tasarımı: Golden Set, Rubric, Coverage

Eval'siz prompt = belirsiz prompt. Golden set inşası, rubric tanımı, kapsam kontrolü.

Şükrü Yusuf KAYA
11 dakikalık okuma
İleri

Eval-Driven Development

"If you can't measure it, you can't improve it." — Peter Drucker
Production LLM uygulamalarının %80'i eval'siz çalışıyor. Bu, projenin gerçek doğruluk skorunu bilmediği anlamına gelir.

Golden Set: Eval Veri Seti#

50-500 örnek yeterli. Her biri etiketli + expected output olmalı.
python
# Golden set örneği — sentiment classification
GOLDEN_SET = [
{
"id": "g_001",
"input": "Ürün hızlı geldi, çok memnunum",
"expected": "olumlu",
"category": "easy", # easy | medium | hard
"tags": ["positive", "shipping"]
},
{
"id": "g_002",
"input": "Geç geldi ama paketleme harika",
"expected": "nötr", # karma — model'i sınar
"category": "hard",
"tags": ["mixed", "shipping"]
},
# ... 50-500 arası
]
Golden set veri yapısı

Rubric: Subjektif Görevler İçin#

Sınıflandırma gibi binary değil, "iyi yazım" gibi subjektif görevler için rubric lazım:
text
# RUBRIC: Müşteri destek email yanıtı
 
1. Empati (0-3 puan)
0 = empatik dil yok
1 = standart "üzgünüm"
2 = duruma özel empati
3 = derin empati + bağlantı
 
2. Çözüm Netliği (0-3)
0 = çözüm yok
1 = belirsiz, "size dönerim"
2 = somut adım var
3 = adım + zaman + alternatif
 
3. Tone Uyumu (0-2)
0 = brand voice'tan kayma
1 = nötr, ama uygun
2 = brand voice'a tam uygun
 
4. Eylem Edilebilirlik (0-2)
0 = anlamlı eylem yok
1 = sonraki adım gizli
2 = açık CTA + link/no
 
Toplam: 10 puan
Geçer: 7+
Rubric örneği

Coverage: Kör Nokta Yok#

Coverage Boyutları#

  • Difficulty: Easy (40%), Medium (40%), Hard (20%)
  • Categories: Tüm intent'ler temsil
  • Edge cases: Empty input, çok uzun, multilingual, special chars
  • Adversarial: Injection denemeleri
  • Demographic diversity: İsim/bölge çeşit

Anti-Pattern: Cherry Picking#

Sadece "kolay 30 örnek" eval production'da çuvallar.
✅ Production trafiğinden örnekle (anonim) ✅ Edge case'leri kasıtlı ekle ✅ Yeni hata örnekleri sürekli ekle (regression test)
Production örnekle: Logged real traffic'ten random örnekle. PII strip et. Etiketle. Bu, "synthetic eval"'den çok daha temsilî.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler