Skip to content

LLM-as-Judge: Pro'ları, Tuzakları, Kalibrasyonu

Subjektif çıktıları (yazım kalitesi, tone) LLM ile skorlamak. Avantajları, bias'ları, insan onayıyla kalibrasyon.

Şükrü Yusuf KAYA
9 min read
Advanced

LLM-as-Judge

Niçin LLM-Judge?#

İnsan annotation pahalı + yavaş. LLM, scale'lenebilir alternatif.
Tipik kullanım:
  • Pairwise comparison (A vs B)
  • Rubric scoring (multi-dimensional)
  • Toxicity / safety classification
  • Hallucination detection (RAG context'te grounding)
text
# LLM-Judge Prompt
 
Sen bir kalite değerlendirme uzmanısın.
 
Kullanıcı sorgusu: {query}
Asistanın cevabı: {response}
İstenen referans: {expected}
 
Aşağıdaki rubric'e göre skorla:
 
1. Doğruluk (0-3)
2. Tamlık (0-3)
3. Tone (0-2)
4. Format (0-2)
 
Çıktı (sadece JSON):
{
"scores": {"accuracy": ?, "completeness": ?, ...},
"total": <toplam>,
"reasoning": "1-2 cümle"
}
Judge prompt

Yaygın Bias'lar#

A vs B karşılaştırmada A'ya öncelik. Çözüm: A↔B yer değiştir, ortalama al.

İnsan Kalibrasyonu#

python
# Judge'ın insan ile uyumunu ölç
HUMAN_LABELS = [...] # 100 örnek
JUDGE_LABELS = [judge(x) for x in HUMAN_LABELS]
 
# Cohen's kappa veya basit accuracy
agreement = sum(h == j for h, j in zip(HUMAN_LABELS, JUDGE_LABELS)) / len(HUMAN_LABELS)
print(f"İnsan-Judge uyumu: {agreement:.0%}")
 
# %85+ → Judge güvenilir
# %85 altı → rubric revize, judge model değiştir
Judge kalibrasyon
Pratik kombinasyon: İnsan eval (100 örnek, gold standard) + LLM-judge (1000 örnek, scale) + Production sample audit (haftalık 50). Üçü birlikte kapsamlı kalite görünümü.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content

Connected pillar topics

Pillar topics this article maps to