Online Eval: Judge LLM + Win-Rate Dashboard + Regression Alarms

Production'da real-time model kalitesi ölçümü: Judge LLM (GPT-4o-mini / Llama 3.3 70B) ile her N. response'u skorla, win-rate v2 vs v1 dashboard, regression alarms. Open eval kitleri: PromptFoo, DeepEval, RAGAs. Cookbook'un eval suite'i: daily snapshot + weekly aggregate + alarm if regress > 3 puan.

Şükrü Yusuf KAYA

26 dakikalık okuma

14.05.2026

İleri

Online Eval: Judge LLM + Win-Rate Dashboard + Regression Alarms

python

# === Online eval — Judge LLM scoring ===
def judge_response(query, response, model="gpt-4o-mini"):
    judge_prompt = f"""Aşağıdaki cevabın kalitesini 1-10 arası değerlendir.
Kriterler: doğruluk, ilgililik, dilbilgisi, kısalık.
 
Soru: {query}
Cevap: {response}
 
Sadece sayı dön (1-10):"""
    score = openai.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": judge_prompt}],
    ).choices[0].message.content
    return int(score.strip())
 
# Production sampling — her 100. response'u judge'la
import random
def maybe_judge(query, response):
    if random.random() < 0.01:        # %1 sample
        score = judge_response(query, response)
        log_to_metrics({"judge_score": score, "model_version": "v2"})