Eval Tasarımı: Golden Set, Rubric, Coverage
Eval'siz prompt = belirsiz prompt. Golden set inşası, rubric tanımı, kapsam kontrolü.
Şükrü Yusuf KAYA
11 min read
AdvancedEval-Driven Development
"If you can't measure it, you can't improve it." — Peter Drucker
Production LLM uygulamalarının %80'i eval'siz çalışıyor. Bu, projenin gerçek doğruluk skorunu bilmediği anlamına gelir.
Golden Set: Eval Veri Seti#
50-500 örnek yeterli. Her biri etiketli + expected output olmalı.
python
# Golden set örneği — sentiment classificationGOLDEN_SET = [ { "id": "g_001", "input": "Ürün hızlı geldi, çok memnunum", "expected": "olumlu", "category": "easy", # easy | medium | hard "tags": ["positive", "shipping"] }, { "id": "g_002", "input": "Geç geldi ama paketleme harika", "expected": "nötr", # karma — model'i sınar "category": "hard", "tags": ["mixed", "shipping"] }, # ... 50-500 arası]Golden set veri yapısı
Rubric: Subjektif Görevler İçin#
Sınıflandırma gibi binary değil, "iyi yazım" gibi subjektif görevler için rubric lazım:
text
# RUBRIC: Müşteri destek email yanıtı 1. Empati (0-3 puan) 0 = empatik dil yok 1 = standart "üzgünüm" 2 = duruma özel empati 3 = derin empati + bağlantı 2. Çözüm Netliği (0-3) 0 = çözüm yok 1 = belirsiz, "size dönerim" 2 = somut adım var 3 = adım + zaman + alternatif 3. Tone Uyumu (0-2) 0 = brand voice'tan kayma 1 = nötr, ama uygun 2 = brand voice'a tam uygun 4. Eylem Edilebilirlik (0-2) 0 = anlamlı eylem yok 1 = sonraki adım gizli 2 = açık CTA + link/no Toplam: 10 puanGeçer: 7+Rubric örneği
Coverage: Kör Nokta Yok#
Coverage Boyutları#
- Difficulty: Easy (40%), Medium (40%), Hard (20%)
- Categories: Tüm intent'ler temsil
- Edge cases: Empty input, çok uzun, multilingual, special chars
- Adversarial: Injection denemeleri
- Demographic diversity: İsim/bölge çeşit
Anti-Pattern: Cherry Picking#
Sadece "kolay 30 örnek" eval production'da çuvallar.
✅ Production trafiğinden örnekle (anonim)
✅ Edge case'leri kasıtlı ekle
✅ Yeni hata örnekleri sürekli ekle (regression test)
Production örnekle: Logged real traffic'ten random örnekle. PII strip et. Etiketle. Bu, "synthetic eval"'den çok daha temsilî.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Yapay Zekâ ve LLM'lere Giriş
Bu Eğitim Hakkında ve Verimli Çalışma Yöntemi
Start Learning1. Temeller — Yapay Zekâ ve LLM'lere Giriş
Yapay Zekâ → Üretken AI → LLM: Bağlamsal Harita
Start Learning1. Temeller — Yapay Zekâ ve LLM'lere Giriş