Tüm roadmap'e dön
topiccore
Eval Dataset Tasarımı
50-200 gerçek user input + beklenen output. 'Gözle tatmin' = eval değildir.
4 saat1 kaynak
Adımlar:
- Üretim trafiğinden 100-200 gerçek soru topla
- Manuel olarak 'altın cevap' yaz veya kabul/red kriteri tanımla
- Her prompt değişikliğinde set'i çalıştır
- Diff'i incele — yeni hatalar ne?
Bu disiplin olmadan prompt iyileştirmesi tahmin oyununa döner.