LLM-as-Judge: Pro'ları, Tuzakları, Kalibrasyonu

Name: LLM-as-Judge: Pro'ları, Tuzakları, Kalibrasyonu
Author: Şükrü Yusuf KAYA

Subjektif çıktıları (yazım kalitesi, tone) LLM ile skorlamak. Avantajları, bias'ları, insan onayıyla kalibrasyon.

Şükrü Yusuf KAYA

9 dakikalık okuma

11.05.2026

İleri

LLM-as-Judge

Niçin LLM-Judge?#

İnsan annotation pahalı + yavaş. LLM, scale'lenebilir alternatif.

Tipik kullanım:

Pairwise comparison (A vs B)
Rubric scoring (multi-dimensional)
Toxicity / safety classification
Hallucination detection (RAG context'te grounding)

text

# LLM-Judge Prompt
 
Sen bir kalite değerlendirme uzmanısın.
 
Kullanıcı sorgusu: {query}
Asistanın cevabı: {response}
İstenen referans: {expected}
 
Aşağıdaki rubric'e göre skorla:
 
1. Doğruluk (0-3)
2. Tamlık (0-3)
3. Tone (0-2)
4. Format (0-2)
 
Çıktı (sadece JSON):
{
  "scores": {"accuracy": ?, "completeness": ?, ...},
  "total": <toplam>,
  "reasoning": "1-2 cümle"
}

Judge prompt

Yaygın Bias'lar#

A vs B karşılaştırmada A'ya öncelik. Çözüm: A↔B yer değiştir, ortalama al.

İnsan Kalibrasyonu#

python

# Judge'ın insan ile uyumunu ölç
HUMAN_LABELS = [...]  # 100 örnek
JUDGE_LABELS = [judge(x) for x in HUMAN_LABELS]
 
# Cohen's kappa veya basit accuracy
agreement = sum(h == j for h, j in zip(HUMAN_LABELS, JUDGE_LABELS)) / len(HUMAN_LABELS)
print(f"İnsan-Judge uyumu: {agreement:.0%}")
 
# %85+ → Judge güvenilir
# %85 altı → rubric revize, judge model değiştir

Judge kalibrasyon

Pratik kombinasyon: İnsan eval (100 örnek, gold standard) + LLM-judge (1000 örnek, scale) + Production sample audit (haftalık 50). Üçü birlikte kapsamlı kalite görünümü.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

1. Temeller — Yapay Zekâ ve LLM'lere Giriş

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular

Pillar Konusu

LLMOps: Üretim Sınıfı LLM Operasyonları

LLMOps, büyük dil modeli tabanlı uygulamaların geliştirme, dağıtım, izleme, değerlendirme ve maliyet yönetimini kapsayan; klasik MLOps'un üzerine prompt versiyonlama, eval-driven CI ve gözlemlenebilirlik (observability) katmanlarını ekleyen mühendislik disiplinidir.