Tüm roadmap'e dön

topiccore

LLM-as-Judge

Daha büyük bir model'e çıktıyı puanlatma — manuel review'a göre 10x hızlı, %80 doğru.

3 saat1 kaynak1 önkoşul

Çıktıyı 1-5 puanla, kriter ver: "doğruluk", "ton", "talimat takibi". Pairwise comparison ("A mı B mi?") daha güvenilir.

Tuzaklar:

Position bias (ilk verileni tercih)
Length bias (uzun cevabı tercih)
Self-preference (kendi modelini tercih)

→ Pozisyonları randomize et, criteria'yı net yaz, multiple judge kullan.

Önce bunları bil

Eval Dataset Tasarımı

50-200 gerçek user input + beklenen output. 'Gözle tatmin' = eval değildir.

Kaynaklar(1)

PAkademik Makale(1)

Judging LLM-as-a-Judge — Zheng et al.

Eval Dataset Tasarımı

Prompt Versioning & A/B Test

Tüm roadmap'i interaktif görüntüle