İçeriğe geç

Supervised, Semi-supervised, Self-supervised: Etiketleme İhtiyacı Paradigmalara Göre Nasıl Değişir?

Modern AI'ın beş büyük öğrenme paradigması — supervised, semi-supervised, self-supervised, weakly supervised, ve few-shot/in-context — her birinin veri etiketleme ihtiyacı, maliyet profili ve nerede kullanılması gerektiği.

Şükrü Yusuf KAYA
26 dakikalık okuma
Orta
Supervised, Semi-supervised, Self-supervised: Etiketleme İhtiyacı Paradigmalara Göre Nasıl Değişir?
🧭 Bu derste
Beş büyük öğrenme paradigmasının veri etiketleme açısından farkını anlayacağız. Aynı problemi 100 etiketle çözebilen bir paradigma var, aynı problemi 10 milyon etiketle çözen başka bir paradigma var. Farkı bilmek bütçeni 100x değiştirebilir.

"Modeli Nasıl Eğiteceğiz?" Sorusunun 5 Cevabı#

Bir ML projesinde modeli eğitirken 5 ana stratejiniz var:
ParadigmaEtiketli veriEtiketsiz veriTipik etiket miktarı
Supervised✅ Çok❌ —10K-10M
Semi-supervised✅ Az✅ Çok100-10K + 100K+
Self-supervised❌ —✅ Çok0 (pretrain) + downstream
Weak supervision🟡 Programmatik✅ Çok0 manual + LF'ler
Few-shot / In-context🟡 Çok az5-100 prompt
İncelersek:

1) Supervised Learning — Klasik Yaklaşım#

Mantık: Etiketli veri + model + loss → model gradient ile öğrenir.
Etiketleme ihtiyacı: Yüksek. Tipik 10K-10M arası etiketli örnek (görev karmaşıklığına göre).
Tipik vakalar:
  • BBox detection (PASCAL VOC, COCO ile)
  • Sentiment classification (IMDB, SST)
  • NER (CoNLL-2003)
  • Translation (paralel cümleler)
Maliyet:
  • 10K etiketli örnek: $500-50K (görev karmaşıklığına göre)
  • 1M etiketli örnek: $50K-5M+
Avantajlar:
  • Anlaması en kolay
  • En öngörülebilir sonuç
  • Domain-spesifik problemler için robust
Dezavantajlar:
  • Pahalı etiketleme
  • Etiket kalitesi performans tavanını belirler
  • Yeni sınıf eklemek = baştan etiketleme
Ne zaman kullan?
  • Görev iyi tanımlı, schema sabit.
  • Etiketli veri zaten var (legacy dataset).
  • Yüksek doğruluk şart (medikal, finans, otonom).

2) Semi-Supervised Learning — Az Etiket + Çok Unlabeled#

Mantık: Az etiketli veriyle başla, model unlabeled'ı pseudo-label ile etiketlesin, döngü.
Etiketleme ihtiyacı: Düşük-orta. 100-10K etiketli + 100K+ etiketsiz.
Tipik yaklaşımlar:
  • Self-training: Modelin emin olduğu pseudo-label'lar train set'e eklenir.
  • Consistency regularization: Bir örneğin augmentation'ları aynı tahmini vermeli (FixMatch, MixMatch).
  • Pseudo-labeling: Confidence threshold üstü pseudo-label.
Tipik vakalar:
  • ImageNet'te 10% labeled + 90% unlabeled ile %98 supervised performans (FixMatch)
  • Tıbbi görüntü (etiketleme pahalı, raw veri ucuz)
Avantajlar:
  • %50-90 etiketleme tasarrufu
  • Unlabeled veri zaten var olduğunda çok güçlü
Dezavantajlar:
  • Pseudo-label hatası birikir (confirmation bias)
  • Threshold ayarı hassas
Ne zaman kullan?
  • Etiketleme pahalı (medikal, hukuki, uzman gerekli)
  • Unlabeled veri bol (web, internal logs)

3) Self-Supervised Learning (SSL) — Modern AI'ın Temeli#

Mantık: Verinin kendisinden "sahte" etiketler üret, model bunlardan öğrensin. Sonra downstream task'a fine-tune et.
Etiketleme ihtiyacı: Pre-training için sıfır. Fine-tune için 100-10K (downstream task'a göre).
Klasik örnekler:
  • MLM (Masked Language Modeling): Cümlede %15 token'ı maskele, modele tahmin ettir. (BERT, RoBERTa)
  • Causal LM: Bir sonraki token'ı tahmin et. (GPT serisi)
  • Contrastive (SimCLR, CLIP): Aynı imajın iki augmentation'ı yakın olsun, farklı imajlar uzak.
  • Masked Image Modeling (MAE): Görüntünün %75'ini maskele, modele restore ettir.
Tipik akış:
  1. Web/Common Crawl'dan 1B+ token, etiket yok
  2. SSL pre-training (haftalar, milyonlarca $)
  3. Görev-spesifik fine-tune (100-10K etiketli)
Avantajlar:
  • Etiketleme maliyeti DRASTİK düşer
  • Transfer learning ile yeni görevlere hızla uyarlanır
  • Modern AI'ın temeli (BERT, GPT, CLIP, SAM)
Dezavantajlar:
  • Pre-training maliyeti çok yüksek (sadece büyük kurumlar yapar)
  • Downstream task hala etiket ister
  • Domain-spesifik pre-training her zaman mevcut değil
Ne zaman kullan?
  • Her zaman (pre-trained model olarak). Sıfırdan pre-train etmek nadiren mantıklı.
🎯 SSL'in veri etiketlemeye etkisi
2018 öncesi her görev için sıfırdan supervised eğitim → milyonlarca etiket gerek. 2018 sonrası (BERT) pre-trained model + fine-tune → 1.000-10.000 etiket yeter. Bu, veri etiketleme ekonomisini 100x değiştirdi. Bugün Hugging Face'te 500.000+ pre-trained model var — herhangi bir görev için "sıfırdan" başlamıyorsun.

4) Weak Supervision — Programmatik Etiketleme#

Mantık: Manuel etiket yerine etiket fonksiyonları (LF) yaz. Heuristics, knowledge base, distant supervision, regex kombinasyonu. Snorkel paradigması.
Etiketleme ihtiyacı: Sıfır manuel etiket! Sadece LF'ler.
Örnek (Türkçe spam tespiti):
def lf_too_many_caps(x): return SPAM if sum(1 for c in x.text if c.isupper()) / len(x.text) > 0.5 else ABSTAIN def lf_contains_phone(x): return SPAM if re.search(r"\b0\d{10}\b", x.text) else ABSTAIN def lf_contains_money(x): return SPAM if re.search(r"\d+\s*(tl|₺)", x.text.lower()) else ABSTAIN
15-50 LF yaz, Snorkel label model çelişkileri çözer.
Tipik akış:
  1. Domain expert + ML engineer 1-2 hafta LF yazar
  2. Snorkel label model train (zayıf etiketler birleşir)
  3. End model train (BERT vs.) zayıf etiketler üzerinde
  4. Final model evaluation set üzerinde test
Avantajlar:
  • Manuel etiket sıfır
  • Schema değişimine çok hızlı uyum (yeni LF ekle)
  • Domain knowledge'ı doğrudan koda dökme
Dezavantajlar:
  • LF kalitesi performans tavanı
  • Snorkel matematiği steep learning curve
  • Açık "sınırı" olmayan görevlerde (subjektif) zor
Ne zaman kullan?
  • Hızlı prototip (1-2 hafta)
  • Domain expert var, manuel annotator yok
  • Schema sık değişiyor
Bu kursta Modül 21'de Snorkel ile Türkçe haber sınıflandırma uygulayacağız.

5) Few-shot / In-context Learning (Modern LLM Çağı)#

Mantık: LLM'e (GPT-4, Claude, vd.) prompt içinde 5-50 örnek göster, gerisini o tahmin etsin. Hiç model eğitimi yok!
Etiketleme ihtiyacı: Çok az. 5-100 prompt örneği.
Örnek (Türkçe NER):
Aşağıdaki cümlelerde kişi, kurum ve yer adlarını [TÜR] formatında işaretle: Cümle: "Trendyol İstanbul'da kurulu." Çıktı: "[ORG]Trendyol[/ORG] [LOC]İstanbul[/LOC]'da kurulu." Cümle: "Aslı Erdoğan Boğaziçi'nde okudu." Çıktı: "[PER]Aslı Erdoğan[/PER] [LOC]Boğaziçi[/LOC]'nde okudu." Cümle: "Galatasaray Avrupa Ligi'nde Ajax'ı yendi." Çıktı: ?
Avantajlar:
  • Etiketleme neredeyse sıfır
  • Schema değişikliği = prompt değişikliği (anında)
  • Çok hızlı iterasyon
Dezavantajlar:
  • LLM maliyeti (her tahmin = API çağrısı)
  • Tahmin tutarsızlığı (aynı girdi farklı zaman farklı çıktı)
  • Niş domain'lerde ucuz değil (medikal terminoloji)
  • "Bilmediğini söylemiyor", uydurma riski
Ne zaman kullan?
  • Prototip aşaması
  • Düşük hacimli görevler (< 10K tahmin)
  • Schema sürekli değişiyor
  • Hızlı POC gerek
Etiketleme bağlantısı: Few-shot çoğu zaman etiket üretmek için kullanılır. LLM ile 10.000 örneği önceden etiketle (auto-label), insan sadece düzeltir (review). Maliyet 10x düşer.

Karar Ağacı: Hangi Paradigmayı Seçmeli?#

Görev için pre-trained foundation model var mı? ├─ Evet (genelde): Bu modeli al │ │ │ ├─ Hacim ve doğruluk kritik mi? │ │ ├─ Evet: Fine-tune (supervised, az etiket) │ │ └─ Hayır: Few-shot / zero-shot prompt (etiket yok) │ │ │ └─ Veri çok mu? Etiket mi pahalı? │ └─ Semi-supervised (FixMatch, pseudo-labeling) │ └─ Hayır: Sıfırdan eğitim ├─ Etiket pahalı mı? │ ├─ Evet: Weak supervision (Snorkel) │ └─ Hayır: Pure supervised │ └─ Çok unlabeled veri var mı? └─ Evet: SSL pre-train + fine-tune

Gerçek Dünya: Hibrit Pipeline#

Modern AI ekipleri genelde tek paradigma kullanmaz. Hibrit akış:
[Foundation model: pre-trained SSL] │ ▼ [Few-shot LLM ile auto-label] │ ▼ [10K-100K otomatik etiket] │ ▼ [İnsan review/correction] ← weak supervision LF'leri │ ▼ [Final supervised fine-tune] │ ▼ [Production model]
Bu hibrit, saf supervised'dan 10-50x ucuz, saf few-shot'tan 2-5x daha doğru.
Modern Türkçe LLM ekipleri bu pattern üzerine kurulu. Bu kursta her parçayı (Modül 20 active learning, 21 weak sup, 25 synthetic data, 22-23 SFT/RLHF) uygulayacağız.
💡 Tek cümlede özet
2018 öncesi: pure supervised, milyonlarca etiket. 2018-2022: SSL pre-train + supervised fine-tune, binlerce etiket. 2023 sonrası: foundation model + few-shot/hybrid, yüzlerce etiket. Veri etiketleme mühendisi olarak senin işin bu hibrit pipeline'ı kurmak.

Sık Sorulan Sorular

Evet — sadece pre-training aşamasında değil. Pre-trained model downstream task'lar için (sınıflandırma, NER, vs.) hâlâ etiketli veri ister. Fark: SSL öncesi 1M etiket gerekiyordu, SSL sonrası 1K-10K yeter. Yani etiketleme "yok olmadı", ihtiyaç miktarı çok düştü ve **kalite** ön plana çıktı.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler