İçeriğe geç
Tüm roadmap'e dön
topiccore

Eval Dataset Tasarımı

50-200 gerçek user input + beklenen output. 'Gözle tatmin' = eval değildir.

4 saat1 kaynak

Adımlar:

  1. Üretim trafiğinden 100-200 gerçek soru topla
  2. Manuel olarak 'altın cevap' yaz veya kabul/red kriteri tanımla
  3. Her prompt değişikliğinde set'i çalıştır
  4. Diff'i incele — yeni hatalar ne?

Bu disiplin olmadan prompt iyileştirmesi tahmin oyununa döner.

Kaynaklar(1)