İçeriğe geç
Tüm roadmap'e dön
topiccore

LLM-as-Judge

Daha büyük bir model'e çıktıyı puanlatma — manuel review'a göre 10x hızlı, %80 doğru.

3 saat1 kaynak1 önkoşul

Çıktıyı 1-5 puanla, kriter ver: "doğruluk", "ton", "talimat takibi". Pairwise comparison ("A mı B mi?") daha güvenilir.

Tuzaklar:

  • Position bias (ilk verileni tercih)
  • Length bias (uzun cevabı tercih)
  • Self-preference (kendi modelini tercih)

→ Pozisyonları randomize et, criteria'yı net yaz, multiple judge kullan.

Önce bunları bil

Kaynaklar(1)