Tüm roadmap'e dön
topiccore
LLM-as-Judge
Daha büyük bir model'e çıktıyı puanlatma — manuel review'a göre 10x hızlı, %80 doğru.
3 saat1 kaynak1 önkoşul
Çıktıyı 1-5 puanla, kriter ver: "doğruluk", "ton", "talimat takibi". Pairwise comparison ("A mı B mi?") daha güvenilir.
Tuzaklar:
- Position bias (ilk verileni tercih)
- Length bias (uzun cevabı tercih)
- Self-preference (kendi modelini tercih)
→ Pozisyonları randomize et, criteria'yı net yaz, multiple judge kullan.