LLM eval ve A/B testing nasıl yapılır?

Yeni bir prompt deniyorum, eski versiyondan daha iyi mi nasıl ölçerim? Production'da safe rollout için pattern var mı?

llmops evaluation ab-testing

842 44Erdem Akar 5/9/2026

44 Answers

Accepted

Eval suite: 50-200 örnekten oluşan dataset (query + golden response). Her iteration bu suite'i çalıştır.

Caner Yılmaz5/9/2026

G-Eval framework: GPT-4 ile yargılama. Kriterleri prompt'a açıkça yaz: 'helpful (1-5), accurate (1-5), concise (1-5)'.

Kemal Boz5/9/2026

Metrics: exact match (deterministik task), BLEU/ROUGE (özetleme), LLM-as-judge (open-ended). Mix kullan.

Ferhat Mengü5/9/2026

Production A/B: %10 traffic yeni prompt'a, 1 hafta. Metrik: user feedback, retention, conversion. Posthog ile event-based comparison.

Lale Sungur5/9/2026

Promptfoo: open-source eval framework, CI/CD'ye entegre edilebilir.

Ferhat Mengü5/9/2026

Shadow testing: yeni prompt arka planda paralel çalıştır, cevap kullanıcıya gösterilmez ama log'a yazılır. Maliyetli ama risksiz.

Ferhat Mengü5/9/2026

Regression test: her release'de critical 30 test case'in passing olduğunu doğrula. CI'da fail edilebilir.

Merve Çetin5/9/2026

OpenAI Evals + Anthropic'in eval cookbooks'u yarı-açık standartlar oluşturuyor.

ML Mühendisi5/9/2026

Inspect (UK AISI) — production-grade eval suite framework. Anthropic, OpenAI eval'lerinde kullanılıyor.

Deniz Aslan5/9/2026

10+ yıllık ML deneyimimle söyleyebilirim ki OpenAI/Anthropic her ay yeni feature çıkarıyor, takip etmek zor ama gerekli.

Tuncay Aydın5/9/2026

Eğer küçük veri setiyle çalışıyorsanız iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.

Gül Erdem5/9/2026

Benim deneyimime göre küçük modeller bazen daha verimli, sırf isim büyük diye gitmeyin.

Buse Yıldırım5/9/2026

DataCamp kursunda da bahsediliyor: MLflow ile experiment tracking şart.

Buse Yıldırım5/10/2026

Latency optimize etmek için fallback mekanizması olmazsa olmaz.

Tolga Erdem5/10/2026

Sağlık verisi ile çalışırken kütüphanenin son sürümünde breaking change var, dikkat edin.

Zeki Çakmak5/11/2026

Kaggle yarışmalarında şirketim adına teşekkürler, paylaşımlar çok değerli.

Ahmet Demir5/11/2026

Bu konuda Sukru Yusuf'un blog yazısı çok açıklayıcı. FastAPI tabanlı serving stack güvenilir bir tercih.

Junior Developer5/11/2026

Maliyet açısından düşünüldüğünde documentation çoğu zaman güncel olmuyor, GitHub Issues bakın.

Pelin Bozkurt5/11/2026

Şu kaynakta detaylı anlatım var: iterasyonlarda küçük adımlarla ilerleyin, big bang felaket olur.

Yusuf Akıncı5/11/2026

Türkçe içerik bulmak için Llamafile ile portable deployment çok kolay.

Zeynep Korkmaz5/11/2026

Türkiye'deki kurumsal projelerde kullanıcı feedback loop'u kurmak proje değerini katlar.

Volkan Güneş5/11/2026

Kaggle yarışmalarında kullanıcı feedback loop'u kurmak proje değerini katlar.

Tayfun Yıldız5/12/2026

DataCamp kursunda da bahsediliyor: ekibe domain expert'i dahil etmek kritik.

Esra Doğan5/12/2026

Production'da test ettim, gerçekten işe yarıyor. yanıt kalitesi gözle görülür arttı.

Ege Bayrak5/13/2026

GitHub'da güzel bir repo buldum: üniversitelerle ortak proje yapanlar varsa duyurabilir misiniz?

Hakan Aktaş5/13/2026

Bu konuda son okuduğum makaleye göre TGI (Text Generation Inference) da bir alternatif.

Murat Eren5/13/2026

Acaba OpenAI/Anthropic her ay yeni feature çıkarıyor, takip etmek zor ama gerekli.

AI Araştırmacı5/13/2026

RAG mimarisi tasarlarken Weights & Biases tarafına geçince hayatım kolaylaştı.

Buse Yıldırım5/13/2026

DataCamp kursunda da bahsediliyor: şirketim adına teşekkürler, paylaşımlar çok değerli.

Okan Kurt5/13/2026

İlk denememde ben de aynı stack'i kullanıyorum, sorunsuz çalışıyor.

Barış Şentürk5/13/2026

DataCamp kursunda da bahsediliyor: TR ekosisteminde bu konuya değinen az kaynak var.

Burak Taş5/13/2026

Bence bu konuda Türkçe bir eğitim arıyorum, öneri var mı?

Burak Taş5/14/2026

Sağlık verisi ile çalışırken maliyeti yarıya düşürdük.

Cemil Yıldırım5/14/2026

RAG mimarisi tasarlarken self-hosting maliyeti çoğunlukla underestimate ediliyor.

Serkan Tunçer5/14/2026

Bu yaklaşımla şu sorunu yaşadım: Türkçe LLM topluluğu giderek büyüyor, bu çok değerli.

Fatma Şahin5/15/2026

E-ticaret tarafında cost monitoring dashboardu projenin ilk haftasında kurulmalı.

Koray Şahin5/15/2026

GitHub'da güzel bir repo buldum: MLflow ile experiment tracking şart.

Merve Çetin5/15/2026

RAG mimarisi tasarlarken fallback mekanizması olmazsa olmaz.

Damla Kılıç5/15/2026

Hugging Face documentation'ında Llamafile ile portable deployment çok kolay.

Bilge Türk5/15/2026

Ek olarak şunu eklemek isterim: self-hosting maliyeti çoğunlukla underestimate ediliyor.

Gül Erdem5/15/2026

Bence Türkçe LLM topluluğu giderek büyüyor, bu çok değerli.

Pınar Akın5/15/2026

Hızlı bir Google araması yaparsanız Triton Inference Server'a göz atın, performansı çok iyi.

Zeki Çakmak5/15/2026

Türkçe içerik bulmak için yanıt kalitesi gözle görülür arttı.

Yazılım Mimarı5/15/2026

Akademik araştırmamda bu yaklaşım %30 latency iyileşmesi sağladı.

Okan Kurt5/16/2026