Tüm roadmap'e dön

topiccore

Eval Dataset Tasarımı

50-200 gerçek user input + beklenen output. 'Gözle tatmin' = eval değildir.

4 saat1 kaynak

Adımlar:

Üretim trafiğinden 100-200 gerçek soru topla
Manuel olarak 'altın cevap' yaz veya kabul/red kriteri tanımla
Her prompt değişikliğinde set'i çalıştır
Diff'i incele — yeni hatalar ne?

Bu disiplin olmadan prompt iyileştirmesi tahmin oyununa döner.

Kaynaklar(1)

AMakale(1)

Hamel Husain — Your AI Product Needs Evals

Bellek Pattern'leri

Tüm roadmap'i interaktif görüntüle