LLM-as-Judge: Pro'ları, Tuzakları, Kalibrasyonu
Subjektif çıktıları (yazım kalitesi, tone) LLM ile skorlamak. Avantajları, bias'ları, insan onayıyla kalibrasyon.
Şükrü Yusuf KAYA
9 dakikalık okuma
İleriLLM-as-Judge
Niçin LLM-Judge?#
İnsan annotation pahalı + yavaş. LLM, scale'lenebilir alternatif.
Tipik kullanım:
- Pairwise comparison (A vs B)
- Rubric scoring (multi-dimensional)
- Toxicity / safety classification
- Hallucination detection (RAG context'te grounding)
text
# LLM-Judge Prompt Sen bir kalite değerlendirme uzmanısın. Kullanıcı sorgusu: {query}Asistanın cevabı: {response}İstenen referans: {expected} Aşağıdaki rubric'e göre skorla: 1. Doğruluk (0-3)2. Tamlık (0-3)3. Tone (0-2)4. Format (0-2) Çıktı (sadece JSON):{ "scores": {"accuracy": ?, "completeness": ?, ...}, "total": <toplam>, "reasoning": "1-2 cümle"}Judge prompt
Yaygın Bias'lar#
A vs B karşılaştırmada A'ya öncelik. Çözüm: A↔B yer değiştir, ortalama al.
İnsan Kalibrasyonu#
python
# Judge'ın insan ile uyumunu ölçHUMAN_LABELS = [...] # 100 örnekJUDGE_LABELS = [judge(x) for x in HUMAN_LABELS] # Cohen's kappa veya basit accuracyagreement = sum(h == j for h, j in zip(HUMAN_LABELS, JUDGE_LABELS)) / len(HUMAN_LABELS)print(f"İnsan-Judge uyumu: {agreement:.0%}") # %85+ → Judge güvenilir# %85 altı → rubric revize, judge model değiştirJudge kalibrasyon
Pratik kombinasyon: İnsan eval (100 örnek, gold standard) + LLM-judge (1000 örnek, scale) + Production sample audit (haftalık 50). Üçü birlikte kapsamlı kalite görünümü.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
1. Temeller — Yapay Zekâ ve LLM'lere Giriş
Bu Eğitim Hakkında ve Verimli Çalışma Yöntemi
Öğrenmeye Başla1. Temeller — Yapay Zekâ ve LLM'lere Giriş
Yapay Zekâ → Üretken AI → LLM: Bağlamsal Harita
Öğrenmeye Başla1. Temeller — Yapay Zekâ ve LLM'lere Giriş
LLM'ler Aslında Nasıl Düşünür? (Token, Embedding, Attention)
Öğrenmeye BaşlaBağlantılı Pillar Konular