LLM-as-Judge: Pro'ları, Tuzakları, Kalibrasyonu

Name: LLM-as-Judge: Pro'ları, Tuzakları, Kalibrasyonu
Author: Şükrü Yusuf KAYA

Subjektif çıktıları (yazım kalitesi, tone) LLM ile skorlamak. Avantajları, bias'ları, insan onayıyla kalibrasyon.

Şükrü Yusuf KAYA

9 min read

5/11/2026

Advanced

LLM-as-Judge

Niçin LLM-Judge?#

İnsan annotation pahalı + yavaş. LLM, scale'lenebilir alternatif.

Tipik kullanım:

Pairwise comparison (A vs B)
Rubric scoring (multi-dimensional)
Toxicity / safety classification
Hallucination detection (RAG context'te grounding)

text

# LLM-Judge Prompt
 
Sen bir kalite değerlendirme uzmanısın.
 
Kullanıcı sorgusu: {query}
Asistanın cevabı: {response}
İstenen referans: {expected}
 
Aşağıdaki rubric'e göre skorla:
 
1. Doğruluk (0-3)
2. Tamlık (0-3)
3. Tone (0-2)
4. Format (0-2)
 
Çıktı (sadece JSON):
{
  "scores": {"accuracy": ?, "completeness": ?, ...},
  "total": <toplam>,
  "reasoning": "1-2 cümle"
}

Judge prompt

Yaygın Bias'lar#

A vs B karşılaştırmada A'ya öncelik. Çözüm: A↔B yer değiştir, ortalama al.

İnsan Kalibrasyonu#

python

# Judge'ın insan ile uyumunu ölç
HUMAN_LABELS = [...]  # 100 örnek
JUDGE_LABELS = [judge(x) for x in HUMAN_LABELS]
 
# Cohen's kappa veya basit accuracy
agreement = sum(h == j for h, j in zip(HUMAN_LABELS, JUDGE_LABELS)) / len(HUMAN_LABELS)
print(f"İnsan-Judge uyumu: {agreement:.0%}")
 
# %85+ → Judge güvenilir
# %85 altı → rubric revize, judge model değiştir

Judge kalibrasyon

Pratik kombinasyon: İnsan eval (100 örnek, gold standard) + LLM-judge (1000 örnek, scale) + Production sample audit (haftalık 50). Üçü birlikte kapsamlı kalite görünümü.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

LLMOps: Production-Grade LLM Operations

LLMOps is the engineering discipline that covers the development, deployment, monitoring, evaluation and cost management of LLM-powered applications — extending classic MLOps with prompt versioning, eval-driven CI and observability tailored for non-deterministic systems.

LLM-as-Judge: Pro'ları, Tuzakları, Kalibrasyonu

LLM-as-Judge

Niçin LLM-Judge?#

Yaygın Bias'lar#

İnsan Kalibrasyonu#

Yorumlar & Soru-Cevap

Related Content

Bu Eğitim Hakkında ve Verimli Çalışma Yöntemi

Yapay Zekâ → Üretken AI → LLM: Bağlamsal Harita

LLM'ler Aslında Nasıl Düşünür? (Token, Embedding, Attention)

Pillar topics this article maps to

LLMOps: Production-Grade LLM Operations

Subscribe to Newsletter