İçeriğe geç

Anahtar Çıkarımlar

  1. LLM değerlendirme (eval), bir dil modelinin çıktılarını doğruluk, tutarlılık, alaka ve güvenlik açısından sistematik ölçen süreçtir; 'iyi görünüyor' sezgisini kanıta çevirir.
  2. İki ana katman vardır: model seçiminde kullanılan genel benchmark'lar ve kendi uygulamanıza özgü, kendi verinizle kurulan görev bazlı eval'ler.
  3. Değerlendirme metrikleri iki gruba ayrılır: kod tabanlı deterministik ölçütler (eşleşme, format, gecikme) ve model tabanlı öznel ölçütler (llm as a judge).
  4. RAG uygulamalarında ragas gibi çerçeveler faithfulness ve context relevance gibi metriklerle getirme ve üretim kalitesini ayrı ayrı ölçer.
  5. Sağlam eval, sürüm değişikliklerinde regresyonu erken yakalar; eval'siz bir LLM uygulaması, kalitesi ölçülemeyen bir kara kutudur.

LLM Değerlendirme (Eval) Nedir? Ölçüm, Metrik ve Yöntemler Rehberi

LLM değerlendirme nedir? LLM değerlendirme (eval), bir büyük dil modelinin veya LLM tabanlı uygulamanın çıktılarının doğruluk, tutarlılık ve güvenlik açısından sistematik olarak ölçülmesidir. Bu rehber: net tanım, neden önemli, değerlendirme metrikleri, llm as a judge, benchmark, ragas, offline ve online eval, KVKK, sık sorulan sorular.

SYK
Şükrü Yusuf KAYA
AI Expert · Kurumsal AI Danışmanı

LLM değerlendirme nedir? LLM değerlendirme (eval), bir büyük dil modelinin veya model üzerine kurulu bir uygulamanın çıktılarını doğruluk, tutarlılık, alaka ve güvenlik gibi ölçütlere göre sistematik olarak ölçen süreçtir. Amaç, "çıktı iyi görünüyor" sezgisini, tekrarlanabilir ve karşılaştırılabilir bir kanıta dönüştürmektir.

Bir büyük dil modeli aynı soruya her seferinde biraz farklı yanıt verebilir; bu olasılıksal doğa, geleneksel yazılım testinin yetmediği anlamına gelir. İşte llm değerlendirme nedir sorusunun önemi burada başlar: modelin kalitesini gözle değil, ölçülebilir bir çerçeveyle takip etmek. Bu rehber llm değerlendirme nedir, neden önemlidir, hangi değerlendirme metrikleri kullanılır, benchmark ile farkı nedir ve llm as a judge ile ragas gibi yöntemlerin nasıl işlediğini ele alıyor.

Tanım
LLM Değerlendirme (Eval)
Bir büyük dil modelinin veya model üzerine kurulu bir uygulamanın çıktılarını doğruluk, tutarlılık, alaka, güvenlik ve maliyet gibi ölçütlere göre sistematik olarak ölçen süreç. LLM değerlendirme, model kalitesini sezgiye değil kanıta dayandırır; genel benchmark'lardan görev bazlı testlere, kod tabanlı metriklerden llm as a judge yöntemine kadar uzanır ve sürüm değişikliklerinde regresyonu yakalar.
Ayrıca: LLM eval, model değerlendirme, eval, LLM değerlendirmesi

LLM Değerlendirme Neden Önemli?

Klasik bir yazılımda bir fonksiyon ya doğru çalışır ya da çalışmaz; girdi-çıktı ilişkisi deterministiktir. Oysa bir dil modeli aynı prompt'a farklı zamanlarda farklı ama yine de "doğru" sayılabilecek yanıtlar üretir. Bu yüzden "çalışıyor mu" sorusunun cevabı ikili değil, dereceli bir kalite ölçümü gerektirir. LLM değerlendirme tam olarak bu ölçümü sağlar.

İkinci neden regresyondur. Bir prompt'u iyileştirdiğinizde, modeli yeni bir sürüme geçirdiğinizde veya RAG pipeline'ında chunking stratejisini değiştirdiğinizde, bir yerde kaliteyi artırırken başka bir yerde bozabilirsiniz. Sağlam bir LLM değerlendirme kümesi bu sessiz bozulmayı erkenden yakalar. Eval'i olmayan bir ekip, her değişiklikten sonra "sanırım daha iyi oldu" diyerek ilerler; bu, üretim kalitesini şansa bırakmaktır.

Üçüncüsü karar verme hızıdır. Piyasada onlarca model varken hangisinin sizin göreviniz için en iyi olduğunu tahminle değil, kendi verinizle kurulmuş bir LLM değerlendirme ile belirlersiniz. Böylece maliyet, gecikme ve kalite arasındaki dengeyi somut sayılara dayandırırsınız.

Dördüncü ve çoğu zaman gözden kaçan neden güvendir. Bir yapay zeka özelliğini yöneticilere, hukuk ekibine veya müşterilere sunarken "çalışıyor" demek yetmez; "şu test kümesinde yüzde kaç doğrulukla çalışıyor, hangi durumlarda hata yapıyor" diyebilmek gerekir. Ölçülebilir bir LLM değerlendirme, teknik ekibin dışındaki paydaşlara güven verir ve bir özelliğin üretime çıkıp çıkmayacağına dair kararı öznel izlenimden nesnel eşiklere taşır. Böylece "iyi hissettiriyor" yerine "kabul kriterini geçti" gibi denetlenebilir bir dile geçilir.

LLM Değerlendirme ile Benchmark Arasındaki Fark Nedir?

Bu iki kavram sık karıştırılır ama farklı işleri çözer. Bir benchmark, standart bir veri kümesi üzerinde modelleri aynı ölçekte karşılaştıran genel bir testtir; model seçimi için değerlidir. MMLU, GSM8K veya HumanEval gibi benchmark'lar, farklı modellerin genel akıl yürütme, matematik veya kod yeteneğini karşılaştırmak için kullanılır.

LLM değerlendirme ise çok daha geniş ve size özeldir: kendi uygulamanızın, kendi verinizle, kendi görevinizde ne kadar iyi çalıştığını ölçer. Bir model bir benchmark'ta zirvede olabilir ama sizin dar kullanım senaryonuzda — örneğin Türkçe hukuki özetleme veya kurum içi destek yanıtlaması — beklenenden zayıf kalabilir. Genel benchmark bir başlangıç filtresidir; nihai kararı ise size özgü LLM değerlendirme verir.

Benchmark ile uygulamaya özgü LLM değerlendirme karşılaştırması
BoyutBenchmarkUygulamaya özgü eval
Veri kümesiStandart, kamuya açıkKendi verinizden altın küme
AmaçModelleri genel kıyaslamaSizin görevinizde kaliteyi ölçme
Ne zamanModel seçimindeHer sürüm ve prompt değişikliğinde
RiskEzberlenmiş test verisi (kontaminasyon)Küçük küme, dar temsil
KararBaşlangıç filtresiNihai üretim kararı

Hangi Değerlendirme Metrikleri Kullanılır?

Değerlendirme metrikleri kabaca iki gruba ayrılır. Birinci grup kod tabanlı, deterministik metriklerdir: çıktının beklenen bir cevapla tam eşleşmesi (exact match), belirli bir formata (JSON, tarih, sayı) uyması, bir anahtar kelimeyi içermesi, gecikme (latency) ve token maliyeti. Bunlar hızlı, ucuz ve tekrarlanabilirdir; ama yalnızca kesin doğrunun olduğu görevlerde işe yarar.

İkinci grup, öznel kalitenin ölçüldüğü model tabanlı metriklerdir. Bir özetin akıcılığı, bir yanıtın yardımseverliği veya bir tonun kurumsal olup olmadığı gibi nitelikler kod ile ölçülemez. Burada devreye llm as a judge girer: bir dil modeli, önceden tanımlı bir puanlama yönergesine göre çıktıyı değerlendirir.

Kod tabanlı ve model tabanlı değerlendirme metrikleri
TürÖrnek metriklerGüçlü yanıSınırı
Kod tabanlıExact match, format, gecikme, maliyetHızlı, ucuz, tekrarlanabilirYalnızca kesin doğruda çalışır
İnsan değerlendirmesiUzman puanı, tercih karşılaştırmasıEn güvenilir referansYavaş ve pahalı
Model tabanlı (llm as a judge)Alaka, faithfulness, ton puanıÖznel kaliteyi ölçekli ölçerKalibrasyon gerekir, yanlı olabilir

Pratikte olgun bir LLM değerlendirme kurgusu üç katmanı birleştirir: hızlı kod tabanlı kontroller kaba elemeyi yapar, llm as a judge öznel kaliteyi ölçekler ve insan değerlendirmesi ara ara altın referans olarak yargıç modeli kalibre eder.

Doğru değerlendirme metrikleri seçimi görev tipine bağlıdır. Sınıflandırma veya çıkarım gibi tek doğru cevabı olan görevlerde doğruluk (accuracy), kesinlik (precision) ve duyarlılık (recall) gibi klasik metrikler yeterlidir. Özetleme, yeniden yazma veya sohbet gibi açık uçlu görevlerde ise tek bir doğru yoktur; burada alaka, sadakat ve tutarlılık gibi öznel değerlendirme metrikleri öne çıkar. Yapılandırılmış çıktı üreten görevlerde (örneğin bir API çağrısı için JSON) ise format geçerliliği ve şema uyumu birincil metriktir. Kısacası tek bir evrensel metrik yoktur; her görev, kendi başarı tanımına uygun değerlendirme metrikleri gerektirir.

LLM as a Judge Nasıl Çalışır?

LLM as a judge (yargıç olarak dil modeli), bir modelin başka bir modelin çıktısını puanladığı yöntemdir. Mantık basittir: insanın binlerce çıktıyı tek tek okuması pahalı ve yavaştır; yeterince iyi yönlendirilmiş bir dil modeli aynı işi çok daha ölçekli yapabilir. Yargıç modele "şu ölçütlere göre 1-5 arası puan ver ve gerekçeni yaz" denir.

Kritik nokta, puanlama yönergesinin (rubric) netliğidir. "İyi mi?" gibi belirsiz bir soru tutarsız puanlar üretir; "Yanıt yalnızca verilen bağlama mı dayanıyor, uydurma bilgi var mı?" gibi keskin bir ölçüt tutarlı sonuç verir. İki yaygın kalıp vardır: tek çıktıya puan vermek (pointwise) ve iki çıktıyı karşılaştırıp hangisinin daha iyi olduğunu seçmek (pairwise). Karşılaştırmalı yöntem, mutlak puanlamadan genellikle daha güvenilirdir.

RAG Uygulamaları Nasıl Değerlendirilir? (Ragas)

Bir RAG uygulamasını değerlendirmek, tek bir yanıtı puanlamaktan daha katmanlıdır; çünkü hata iki farklı yerde doğabilir. Ya getirme (retrieval) katmanı yanlış belgeyi getirir, ya da doğru belge gelse bile üretim (generation) katmanı ona sadık kalmaz. İyi bir eval bu iki katmanı ayrı ayrı ölçmelidir.

Ragas, bu ihtiyaç için tasarlanmış açık kaynak bir değerlendirme çerçevesidir ve RAG'e özgü değerlendirme metrikleri sunar. Başlıcaları şunlardır:

Nasıl Yapılır

Ragas ile bir RAG yanıtını değerlendirmenin katmanları

Ragas'ın getirme ve üretim kalitesini ayrı metriklerle ölçme mantığı.

  1. 1

    Faithfulness (sadakat)

    Üretilen yanıtın, getirilen bağlama sadık olup olmadığını; yani uydurma bilgi içerip içermediğini ölçer.

  2. 2

    Context relevance (bağlam alakası)

    Getirilen belge parçalarının soruyla gerçekten ilgili olup olmadığını ölçer; getirme kalitesini yakalar.

  3. 3

    Answer relevance (yanıt alakası)

    Üretilen yanıtın sorulan soruya doğrudan cevap verip vermediğini ölçer.

  4. 4

    Context recall (bağlam kapsama)

    Doğru yanıt için gereken tüm bilginin getirilen bağlamda bulunup bulunmadığını ölçer.

Bu ayrım pratikte çok değerlidir: bir RAG sistemi yanlış cevap verdiğinde, sorunun getirmeden mi yoksa üretimden mi kaynaklandığını bu metrikler söyler. Çoğu RAG hatasının kökeni getirme katmanı olduğundan, faithfulness ve context relevance metriklerini ayrı izlemek doğru düzeltmeyi yapmayı sağlar. Bu katmanların uçtan uca tasarımı için kurumsal RAG sistemleri çözümüne göz atabilirsiniz.

Offline ve Online Değerlendirme

LLM değerlendirme iki zaman diliminde yapılır. Offline eval, model üretime çıkmadan önce sabit bir test kümesi (golden set) üzerinde koşar. Burada amaç kontrollü karşılaştırmadır: yeni prompt eski prompt'tan iyi mi, yeni model sürümü regresyon yaratıyor mu? Offline eval tekrarlanabilir olduğu için CI/CD hattına bağlanabilir; her değişiklikte otomatik çalışır ve kalite düşerse dağıtımı durdurur.

Online eval ise sistem canlıdayken gerçek kullanıcı trafiğinde çalışır. Burada altın küme değil, gerçek dünya sinyalleri ölçülür: kullanıcının başparmak yukarı/aşağı geri bildirimi, görevi tamamlama oranı, konuşmayı terk etme, insana devretme sıklığı. Online eval, offline'da görülemeyen gerçek kullanım desenlerini ortaya çıkarır. İkisi birbirini tamamlar: offline regresyonu önler, online gerçek etkiyi ölçer. Bu ölçüm-izleme döngüsü, LLMOps disiplininin merkezinde yer alır.

LLM Değerlendirmede KVKK ve Güvenlik

Değerlendirme kümeleri çoğu zaman gerçek kullanıcı etkileşimlerinden türetilir; bu da kişisel veri içerme riskini beraberinde getirir. Türkiye bağlamında bu, KVKK (Kişisel Verilerin Korunması Kanunu) ile birlikte tasarlanmalıdır: test kümesindeki kişisel veriler anonimleştirilmeli, erişim yetkilendirilmeli ve verinin değerlendirme amacıyla işlendiği belgelenmelidir.

Ek bir hassasiyet, llm as a judge için üçüncü taraf bir modelin kullanılmasıdır. Kurum içi verinizi puanlamak için dışarıdaki bir modele gönderdiğinizde, bu paylaşımın aydınlatma metni ve veri işleme sözleşmeleriyle uyumlu olması gerekir. Güvenlik boyutunda ise eval yalnızca kalite değil, risk de ölçmelidir: modelin zararlı içerik üretme, prompt enjeksiyonuna açık olma ve halüsinasyon eğilimi düzenli olarak test edilmelidir.

LLM Değerlendirmenin Sınırları ve Yaygın Hatalar

LLM değerlendirme güçlüdür ama kusursuz değildir. En yaygın hatalar şunlardır:

  • Çok küçük veya temsil etmeyen küme: Beş örnekle yapılan bir eval, gerçek kullanım çeşitliliğini yakalayamaz ve yanıltıcı bir güven verir.
  • Belirsiz puanlama yönergesi: llm as a judge'a net rubric verilmezse, puanlar tutarsız olur ve karşılaştırma anlamsızlaşır.
  • Yargıç modele körü körüne güven: Yargıç modelin yanlılıkları insan kalibrasyonuyla dengelenmezse, sistematik hata birikir.
  • Benchmark kontaminasyonu: Bir model test verisini eğitim sırasında görmüşse, benchmark skoru gerçek yeteneği abartır.
  • Tek metriğe indirgeme: Kaliteyi tek bir sayıya sıkıştırmak, gecikme, maliyet ve güvenlik arasındaki dengeleri gizler.

Bu yüzden olgun bir LLM değerlendirme kurgusu; kod tabanlı metrikleri, kalibre edilmiş llm as a judge yargısını ve ara ara insan denetimini birlikte kullanır. Tek bir yönteme yaslanmak, en yaygın başarısızlık nedenidir.

Sıkça Sorulan Sorular

LLM değerlendirme ile benchmark aynı şey mi?

Hayır. Benchmark, standart bir veri kümesi üzerinde modelleri karşılaştıran genel bir testtir ve model seçiminde işe yarar. LLM değerlendirme ise daha geniştir; kendi uygulamanızın kendi verinizle, kendi görevinizde ne kadar iyi çalıştığını ölçer. Bir model benchmark'ta lider olabilir ama sizin senaryonuzda zayıf kalabilir.

LLM as a judge nedir ve güvenilir mi?

LLM as a judge, bir dil modelinin başka bir modelin çıktısını önceden tanımlı ölçütlere göre puanladığı yöntemdir. Öznel kaliteyi (ton, alaka, yardımseverlik) insana göre çok daha ölçekli değerlendirir. Güvenilirliği, net bir puanlama yönergesi (rubric) ve insan örnekleriyle kalibrasyona bağlıdır; kontrolsüz kullanıldığında yanlı olabilir.

RAG uygulaması nasıl değerlendirilir?

RAG'de iki katman ayrı ölçülür: getirme (doğru belge geldi mi) ve üretim (yanıt getirilen belgeye sadık mı). Ragas gibi çerçeveler faithfulness, context relevance ve answer relevance gibi değerlendirme metrikleriyle bu ayrımı yapar. Çoğu RAG hatasının kökeni getirme katmanı olduğu için bu ayrım kritiktir.

Offline ve online eval arasındaki fark nedir?

Offline eval, üretime çıkmadan önce sabit bir test kümesi üzerinde yapılır; sürüm karşılaştırması ve regresyon yakalama için idealdir. Online eval ise canlıda gerçek kullanıcı trafiğinde çalışır; kullanıcı geri bildirimi, başarı oranı ve gerçek dünya davranışını ölçer. İkisi birbirini tamamlar.

Küçük bir ekip LLM değerlendirmeye nasıl başlar?

En hızlı yol, 20-50 gerçek örnekten oluşan küçük bir altın küme (golden set) hazırlamak ve her sürümde bu küme üzerinde çıktıları puanlamaktır. Önce basit kod tabanlı kontrollerle (format, anahtar bilgi var mı) başlayın, sonra öznel kalite için llm as a judge ekleyin. Küçük ama tutarlı bir eval, hiç olmamasından çok daha değerlidir.

LLM değerlendirmede KVKK neyi gerektirir?

Değerlendirme verisi gerçek kullanıcı kayıtlarından geliyorsa kişisel veri içerebilir. Test kümesini oluştururken kişisel verinin anonimleştirilmesi, erişimin sınırlanması ve verinin işlenme amacının belgelenmesi gerekir. Üçüncü taraf bir model llm as a judge olarak kullanılıyorsa, veri paylaşımının aydınlatma metni ve sözleşmelerle uyumlu olması şarttır.

Özetle: LLM Değerlendirme Nedir?

Özetle llm değerlendirme nedir sorusunun cevabı şudur: bir dil modelinin veya LLM uygulamasının çıktılarını doğruluk, tutarlılık, alaka ve güvenlik açısından sistematik ölçen süreç. Genel benchmark model seçiminde başlangıç filtresidir; asıl kararı kendi verinizle kurulmuş görev bazlı eval verir. Değerlendirme metrikleri kod tabanlı ve model tabanlı (llm as a judge) olarak ikiye ayrılır; RAG için ragas gibi çerçeveler getirme ve üretim kalitesini ayrı ölçer. Temeli sağlamlaştırmak için LLM nedir ve prompt engineering nedir rehberlerine göz atabilir, üretim seviyesinde bir değerlendirme hattı kurmak için yapay zeka danışmanlığı ile başlayabilirsiniz.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Yorumlar

Yorumlar

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular