İçeriğe geç

Ground Truth İllüzyonu: "Doğru Etiket" Diye Bir Şey Gerçekten Var mı?

Veri etiketlemenin felsefi temeli: ground truth gerçekte var mı, annotator subjectivity neden kaçınılmaz, "doğru cevap" varsayımının modern AI'da yarattığı sorunlar ve disagreement'i sinyal olarak görmenin yeni paradigması.

Şükrü Yusuf KAYA
32 dakikalık okuma
Orta
Ground Truth İllüzyonu: "Doğru Etiket" Diye Bir Şey Gerçekten Var mı?
🧠 Bu bir DÜŞÜNCE dersi
Bu derste matematik yok, kod yok. Sadece felsefe ve örnekler var. Ama bittiğinde, ML mühendisliğine bakışın temelden değişecek. Bu konu, modern AI'da en az anlaşılmış ama en kritik olanı.

Bir Sahnenin İki Yüzü#

Şu cümleyi oku:
"Devlet kararıyla sokaklara çıkma yasağı getirildi. Bu, pandeminin yayılmasını engelleyecek önemli bir adımdır."
Bu cümlenin sentiment'i ne?
Üç ayrı annotator olduğunu düşün:
  • Annotator A (sağlık çalışanı): "Pozitif. Sağlığı koruyan bir adım."
  • Annotator B (esnaf): "Negatif. Geçimimizi kaybedeceğiz."
  • Annotator C (sosyolog): "Nötr. Tarihsel bir gözlem, his ifade etmiyor."
Hangisi doğru? Hepsi doğru. Hangisi yanlış? Hiçbiri.
Bu, "ground truth illüzyonu"nun çekirdeğidir. Klasik ML literatürü "ground truth"u verili kabul eder — sanki tüm cümleler için "objektif doğru cevap" varmış gibi. Halbuki birçok görevde böyle bir şey yok. Veri-merkezli AI bu gerçekle yüzleşmek zorunda.

Rashomon Etkisi: Aynı Olay, Farklı Anlatımlar#

Akira Kurosawa'nın 1950 filmi Rashomon'da aynı cinayet 4 farklı tanıktan 4 farklı şekilde anlatılır. Hepsi "doğru" söylüyor, hepsi farklı. Bu felsefi paradoks ML literatürüne Rashomon effect olarak girdi.
Veri etiketlemesinde her gün yaşanır:
  • Bir Twitter yorumu "ironi" mi yoksa "ciddi pozitif" mi?
  • Bir tıbbi görüntüde "şüpheli kütle" mi yoksa "normal varyasyon" mu?
  • Bir LLM cevabı "helpful" mu yoksa "şüpheli derecede emin" mi?
  • Bir polygon "tam çatlağın sınırı" mı yoksa "yakın bir tahmin" mi?
Cevap "bağlam" ve "kim baktığına" göre değişir.
Rashomon etkisi — aynı veri, farklı bakış açıları.
Subjektif görevlerde tek bir "doğru" yok; perspektifler var.

Üç Tür Görev: Objektif, Subjektif, Hibrit#

Tüm etiketleme görevleri eşit değildir. Üç kategoriye ayrılır:

Kategori 1: Objektif Görevler (Ground Truth Var)#

  • "Bu BBox bir araba mı?" (genelde net)
  • "Bu cümlede 'İstanbul' kelimesi geçiyor mu?" (net)
  • "Bu yorumda telefon numarası var mı?" (net)
  • "Bu kanun maddesinin numarası kaç?" (net)
Bu görevlerde annotator hataları gürültü (noise) — doğru cevap var ve sapmalar düzeltilebilir.

Kategori 2: Subjektif Görevler (Ground Truth Yok)#

  • "Bu yorumda toxicity var mı?" (kültüre göre değişir)
  • "Bu LLM cevabı helpful mu?" (kullanıcı ihtiyacına göre)
  • "Bu argüman ikna edici mi?" (okurun dünya görüşüne göre)
  • "Bu estetik fotoğraf güzel mi?" (özel zevk)
  • "Bu hicvi içerik komik mi?" (mizah anlayışı)
Bu görevlerde annotator farklılıkları gürültü değil, sinyal — gerçek bir görüş çeşitliliği var.

Kategori 3: Hibrit Görevler (Çoğunluğu)#

  • "Bu yorum pozitif mi negatif mi?" (genelde net ama edge case'lerde subjektif)
  • "Bu cümle başka bir cümleyle ayni anlamlı mı?" (paraphrase — kısmen yorum)
  • "Bu görüntüde bu nesnenin tam sınırı nerede?" (polygon — pixel-exact ortak yok)
  • "Bu varlığın hangi tipte? PER mi ORG mi?" ("Trendyol" — şirket ama brand?)
Bu çoğunlukta gerçek ML görevidir.

Klasik Yaklaşım Neden Yetersiz?#

Klasik ML literatürü tüm görevleri Kategori 1 sanıyor:
"Annotator'lar arasında çelişki var? Demek ki biri yanlış. Majority vote ile çoğunluğa karar verelim, gerisini gürültü kabul edelim."
Bu yaklaşım Kategori 1'de doğru. Ama 2 ve 3'te bilgi kaybeder.
Örnek: Toxicity annotation. 5 annotator'dan 3'ü "toxic", 2'si "değil" diyor. Majority = "toxic". Ama gerçekte:
  • 2 kişi farklı bir kültürel/sosyal perspektifle "değil" diyor.
  • Bu görüşler dataset'in tamamında pattern olabilir.
  • Sadece "toxic"e zorlamak modeli bir kesimin görüşüne uydurmak demek.
Bu, toxicity modellerinin sürekli bias raporu almasının ana sebebidir.

Yeni Paradigma: Perspectivist AI#

Son 5 yılda (özellikle 2021'den itibaren) akademik literatürde yeni bir akım ortaya çıktı: Perspectivist AI veya Disagreement as Signal.
Temel iddia: Subjektif görevlerde annotator çelişkileri silinmesin, modele aktarılsın.

Pratikte ne demek?#

Yöntem 1: Soft labels (yumuşak etiketler)

Tek bir "toxic" yerine bir dağılım: {toxic: 0.6, not_toxic: 0.4}. Model bunu öğrenir.

Yöntem 2: Multi-annotator modeller

Modelin annotator ID'sini de girdi alması. "Annotator A'ya göre toxic mi?" sorusunu cevaplar. Inferans'ta annotator-bağımsız tahmin için annotator dağılımı.

Yöntem 3: Demografi/perspektif şartlandırması

Modelin perspektifle conditional çıktı vermesi. "18-25 yaş kadın bakış açısına göre bu yorum toxic mi?"

Yöntem 4: Çoklu çıktı

Model bir tahmin değil, dağılım veya range çıktı versin. "Toxic skoru 0.4-0.8 arası, annotator perspektifine bağlı."
Bu yöntemler hâlâ akademik araştırma alanı, ama şu yıllarda production'a geçecek.

RLHF Bağlamı: "Helpful" Bir Subjektif Sözdür#

ChatGPT ve sonrasında RLHF'in popülerleşmesi bu konuyu stratejik yaptı. LLM'in "helpful" olması ne demek?
  • Hızlı cevap mı? (TLDR severler için)
  • Detaylı açıklama mı? (öğrenci için)
  • Tehlikeli bilgi vermemek mi? (safety için)
  • Yaratıcı bir cevap mı? (yazar için)
  • Kibarca reddetmek mi? (sınırlar için)
InstructGPT paper'ında OpenAI ekibi şu cümleyi yazdı:
"Annotator demografisi, dil, eğitim, kültür modelin son davranışını etkiler. Bu, hangi annotator havuzunu seçtiğinizin modelin kişiliği olduğu anlamına gelir."
Bu, derin bir gözlemdir. RLHF'te annotator değişimi = model değişimi.

Türkiye'ye uyarlanmış vaka#

Türkçe bir LLM eğitirken "helpful"u kim tanımlayacak?
  • Bir İstanbul mühendisi mi?
  • Anadolu'lu bir öğretmen mi?
  • Bir Suriye'li mülteci mi (Türkçe öğreniyor)?
  • Bir Türk Cypriotlu mu?
Her birinin "yardımcı" yanıt beklentisi farklı. Türkçe RLHF dataset hazırlarken annotator havuzunun çeşitliliği modelin son kişiliğini belirleyecek. Bu, sadece teknik değil siyasi ve kültürel bir karardır.
💡 Pratik kural
Yeni bir projede schema yazarken kendine sor: "Bu görev objektif mi (Kategori 1), subjektif mi (Kategori 2), hibrit mi (3)?" Kategori 1 için klasik gold standard yaklaşımı yeterli. Kategori 2 için en az 5-7 annotator + soft labels gerek. Kategori 3 için orta yol — 3 annotator + disagreement raporu.

IAA'nın Yeni Anlamı#

Eski yorum: "IAA Cohen κ < 0.6 → kötü dataset, schema problemi."
Yeni yorum: "IAA Cohen κ < 0.6 → görev subjektif, bilgi kaybetmemek için multi-annotator yaklaşım gerek."
Klasik literatürde Landis-Koch tablosu:
κ aralığı"Kalite"
0.81-1.00Mükemmel
0.61-0.80Önemli
0.41-0.60Orta
0.21-0.40Zayıf
< 0.21Az
Modern yorum: Bu tablo Kategori 1 görevler için geçerli. Kategori 2-3 için "kalite" değil, görev türünün doğal eğrisi.
Şu Aralık 2024'te NeurIPS'te yayımlanan bir paper'dan alıntı:
"Toxicity, hate speech, helpfulness, fairness gibi görevlerde Cohen κ = 0.5 normal sınırdır; daha yüksek değer annotator havuzunun çeşitliliği eksik sinyali olabilir."
Yani çok yüksek IAA bile şüphe edilir — eğer görev gerçekten subjektifse, herkesin aynı düşünmesi anormal.

Pratisyen İçin Sonuçlar#

Bu derin bir konu. Senin günlük işine yansıması:

1) Schema yazarken görev türünü işaretle#

Schema dokümanın başında: "Bu görev: ☒ Hibrit (yorum gerektiren). Disagreement beklenir, gold standardı multi-annotator + adjudication ile kuracağız."

2) IAA hedefini realistik koy#

  • Kategori 1: κ ≥ 0.85
  • Kategori 3: κ ≥ 0.70
  • Kategori 2: κ ≥ 0.55 yeterli + multi-annotator soft labels

3) Annotator çeşitliliğini kayda al#

Datasheet'e annotator demografisini ekle. Yaş, cinsiyet, eğitim, coğrafya, dil. Modelin son bias'ı buradan gelir.

4) Çelişkili örnekleri sakla#

"Adjudication"da çoğunluğa indirgemek yerine, iki yorumu da kaydet. Belki bir gün dağılımsal model eğitirsin.

5) Subjektif görevlerde gold standardı sorgu#

Test set tek annotator'ın görüşü olamaz. En az 5-7 annotator, çelişkilerin raporlanması, performans dağılım olarak rapor.

Etik Boyut: "Kimin Doğrusu?" Sorusu#

Subjektif görevlerde "ground truth" varsayımı etik bir sorun da yaratır. Eğer modelin etiket dağılımı belirli bir grubun (örn. ABD, eğitimli, beyaz, eril) görüşüne uyarsa:
  • Marjinal gruplar için model kötü çalışır
  • "Toxicity" modeli marjinal dil/argo kullanımını işaretler ama mainstream beni yormaz
  • "Helpfulness" modeli Batı tarzı yanıtları "iyi" sayar
  • "Quality" modeli formal akademik dilden hoşlanır
Bu, annotation pipeline'ının siyasi bir aksiyondur demek.
Bu kursta Modül 24 (Red Teaming) ve Modül 30 (Sektörel Uyumluluk)'te bu konuyu pratik nasıl ele alacağımızı göreceğiz. Şimdilik sadece farkına var: veri etiketleme tarafsız bir teknik aktivite değil.
🤔 Düşünce egzersizi
Bir Türkçe LLM RLHF dataset hazırlıyorsun. "Kürtçe konusunda nasıl yazılır?" sorusuna yanıtın "helpful" olup olmadığını kim ve nasıl etiketler? Annotator'lar tek bir bakış açısından mı, çoklu mu? Türkiye'nin farklı bölgelerinden mi? Bu seçim modelin son kişiliğini nasıl şekillendirir? Cevap yok; ama soruyu sormak başlı başına önemli.

Modül 1 Özet#

Bu modülde:
  • 1.1: ML pipeline döngüsel, 8 halkalı bir çark — veri etiketleme omurga
  • 1.2: 14 etiket formatının taksonomisi — klasikten modern AI'a
  • 1.3: 5 öğrenme paradigması — etiketleme ihtiyacı 100x değişiyor
  • 1.4: Aynı veri 3 schema → 3 farklı sonuç (vaka)
  • 1.5 (bu): Ground truth illüzyonu — disagreement bilgidir
Sıradaki: Modül 2 — Veri Türleri ve Modaliteler
Modül 2'de metin, görüntü, video, ses, 3D, document AI modalitelerini derinine inceleyeceğiz. Her birinin etiketleme özellikleri, tool'ları ve Türkçe örnekleri.

Sık Sorulan Sorular

Tamamen objektif görevlerde ("bu cümlede 'İstanbul' kelimesi geçiyor mu?") tek doğru cevap var. Ama çoğu ML görevi tamamen objektif değil — yorum, anlam, değer içerir. Bu görevlerde "ground truth" pratik bir kabuldür, mutlak değil. Annotator çelişkisi de bu yüzden tamamen yok olmaz.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler