Semi-supervised'de eğitim setine yanlışlıkla anomali sızarsa ne olur?

Performans düşer ama tamamen bozulmaz. Bu, 'eğitim seti kirliliği' olarak bilinir. Çözüm: kirlilik oranını tahmin etmek için 'contamination' parametresi kullan (PyOD'da default 0.1). Eğer eğitim setin %2 anomali içeriyorsa, contamination'ı 0.02 olarak ayarla. Modül 8'de OCSVM ile bu durumu detaylı işleyeceğiz.

Weakly-supervised için Snorkel kullanmak şart mı?

Hayır. Custom Python kuralları + cleanlab + label propagation da işe yarar. Snorkel sadece bu süreci kütüphane olarak güzelleştiriyor. Modül 3'te (Veri Hazırlığı) weak supervision'ın araçlarını detaylı göstereceğiz.

Saf supervised AD'nin dezavantajı çok büyük mü?

Eğitim setinde olmayan yeni anomali tiplerini kaçırması ciddi bir risk. Özellikle fraud ve security gibi adversarial alanlarda yeni saldırı pattern'leri sürekli çıkıyor. Bu yüzden saf supervised AD nadiren tek başına kullanılır.

Active learning otomatize edilebilir mi?

Kısmen. Örnek seçimi (uncertainty + diversity sampling) otomatize. Ama 'analist'in etiketleme işi' çoğunlukla manuel — bir UI üzerinden, bir queue sisteminde. ModAL, Label Studio gibi araçlar bu UI'yı sağlıyor. Modül 19'da implementasyon örneği vereceğiz.

Öğrenme Rejimleri: Supervised, Semi-Supervised, Unsupervised, Weakly-Supervised — Etiket Kıtlığı Altında Karar

Anomaly detection için dört öğrenme rejimi: supervised, semi-supervised, unsupervised, weakly-supervised. Etiket pahalılığı tablosu, hangi sektörde hangi rejim, ve hibrit yaklaşımlar.

Şükrü Yusuf KAYA

26 dakikalık okuma

23.06.2026

Başlangıç

Öğrenme Rejimleri: Supervised, Semi-Supervised, Unsupervised, Weakly-Supervised — Etiket Kıtlığı Altında Karar

🎯 Etiket pahalılığı belirleyici

Anomaly detection'da etiket bulmak çok pahalıdır. Bir fraud transaction'ı doğru etiketlemek için analist gerekir; bir bearing arızası etiketlemek için makinist + downtime gerekir. Bu yüzden 'hangi öğrenme rejimini kullanacağız' sorusunun cevabı asla 'supervised' kolaylığında değil. Bu derste dört rejimi netleştireceğiz ve hangi sektörde hangi rejimin başlangıç noktası olduğunu göstereceğiz.

Supervision Spektrumu#

Klasik ML'de öğrenme rejimleri etiket miktarı + etiket kalitesi ekseninde yerleşir. Anomaly detection'da dört rejim öne çıkar:

[ Etiket yok ]                              [ Tam etiket ]
       ↓                                          ↓
 Unsupervised ─ Weakly-Supervised ─ Semi-Sup ─ Supervised
       ↓                ↓                ↓             ↓
   Iforest         Snorkel          OC-SVM      XGBoost+Focal
   LOF             Programmatic     VAE         Deep Classifier
   DBSCAN          labels

Her birinin temel varsayımları:

Tanım: Eğitim verisinde hiç etiket yok. Model "neyin normal olduğunu" verinin yapısından çıkarır.

Temel varsayım: Anomalilerin azınlıkta olduğu (örn. veri toplamında %1-5'i aşmadığı).

Tipik algoritmalar: Isolation Forest, LOF, HBOS, OCSVM, autoencoder reconstruction error.

Avantajları:

Etiket maliyeti yok — hızlı başlanır
Yeni domain'lere kolay taşınır
Bilinmeyen anomali tiplerini de yakalayabilir (eğitim setinde olmayanlar dahil)

Dezavantajları:

Performans tahmini zor (etiket yok → metric yok)
Hyperparameter (contamination, k) seçimi sezgisel
"Anomali" tanımı algoritmanın iç önyargısına bağlı

Tipik kullanım: İlk MVP, yeni sektöre giriş, yeni feature ekleme döneminde baseline kurma.

Uygulama notu: Unsupervised AD ile başlayıp etiket toplamaya yatırım yapma, sonra semi-supervised veya supervised'a geçme — endüstri standart yaklaşımı.

Sektörlere Göre Etiket Pahalılığı#

Etiket maliyetini somutlaştırmak için sektörel bir tablo:

Sektör	Etiketleme yöntemi	Etiket başına maliyet	Etiket gecikmesi
Banking fraud	Analist manual review	5-15 TL/etiket	1-7 gün (chargeback ile 30-90 gün)
AML compliance	SAR analist + denetçi	200-500 TL/etiket	2-8 hafta
Insurance fraud	Soruşturma uzmanı	500-2000 TL/etiket	1-6 ay
Network IDS	SOC analist	8-25 TL/etiket	0-12 saat
Predictive maintenance	Bakım mühendisi + downtime	1000-50.000 TL/etiket	1-12 hafta
Vision QC	Kalite kontrol uzmanı	1-3 TL/etiket	dakikalar
Healthcare ECG	Kardiyolog yorumu	50-200 TL/etiket	gün-haftalar

Pratik karar: Etiket başı maliyet 100 TL üstüyse, mecburen unsupervised veya semi-supervised ile başla. Maliyet 5 TL altıysa ve gecikme kısaysa, supervised gerçekçi olabilir.

Sektör × Rejim Eşleme#

Aşağıdaki tablo başlangıç noktan için bir öneri matrisi. Olgunlaştıkça başka rejimlere geçeceksin.

Sektör	Başlangıç rejimi	6 ay sonra	Gerçek olgun pipeline
Banking fraud	Semi-supervised (normal işlemler bol)	+ Supervised (etiket arşivlendikçe)	Semi + Supervised ensemble
AML	Weakly-supervised (Snorkel)	+ Supervised tunel	Hibrit + graph
Network IDS	Unsupervised (etiket bekleyemez)	+ Semi-supervised (saf normal)	Ensemble + signature
Predictive maintenance	Unsupervised (etiket pahalı)	+ Few-shot supervised	Hibrit + physics-based
Vision QC	Semi-supervised (defektsiz parça bol)	Few-shot + augmentation	PatchCore + classifier
Log anomaly	Unsupervised (volüm çok)	+ DeepLog (semi-sup)	LogBERT + signature
Healthcare ECG	Weakly-supervised (proxy etiket)	+ Supervised (etiketli arşiv)	Multi-modal ensemble
APM/SRE	Unsupervised (real-time)	+ Drift-aware	Online + offline ensemble

🧬 Hibrit her yerde kazanır

Production'da en sık karşılaşacağın yapı iki rejim arasında hibrit: bir unsupervised baseline + bir supervised tune. Unsupervised model 'şüphelenilen' kayıtları gönderir, supervised model bu kayıtları detaylı sınıflandırır. Buna 'cascade' veya 'two-stage' AD denir.

Active Learning — Etiket Pahalılığını Azaltmak#

Active learning (aktif öğrenme), modelin kendisinin hangi örnekleri etiketlemeyi istediğini söylediği yaklaşımdır. Anomaly detection için çok güçlüdür çünkü etiket maliyeti yüksek.

Tipik döngü#

1. Unsupervised model fit et (etiketsiz)
2. Tüm test setine anomaly score üret
3. En "belirsiz" örnekleri seç (score eşik civarında)
4. Bu örnekleri analist'e gönder, etiket al
5. Etiketli kümeyle supervised tune et
6. Adım 2'ye dön

Active learning ile etiket tasarrufu#

Yaklaşım	Aynı PR-AUC için gerekli etiket
Rastgele etiketleme	10.000 örnek
Pure-uncertainty sampling	2.500 örnek
Diversity + uncertainty	1.200 örnek
Active + weak supervision	600 örnek

Türkiye'deki bir fraud ekibi raporu (2024): active learning ile etiket maliyeti %85 azaldı, aynı PR-AUC'u sürdürdü.

Modül 19'da (Financial Fraud) active learning kullanan tam bir pipeline kurağız.

Self-Supervised AD — Etiketsiz Ama Güçlü#

Son 3 yılın sıcak konusu self-supervised anomaly detection. Burada etiket yok ama modelin kendisi "pretext task" yaratıyor (örn. rotasyon tahmini, masked reconstruction, contrastive pair).

Self-Supervised Yöntemler Tablosu#

Yöntem	Pretext task	Anomaly skoru
DROCC	Geometric transformation	Boundary distance
CSI	Distribution-shifted positive	Contrastive similarity
PANDA	Pretrained features + adapter	Mahalanobis on features
NeuTraL AD	Learned transformations	Transformation discrepancy
SimCLR + AD	Image augmentations	Feature distance

Self-supervised yöntemler etiketsiz olmasına rağmen supervised seviyeye yaklaşan performans verebiliyor. Bu, "etiketin pahalı olduğu" sektörlerde (healthcare, predictive maintenance) çok güçlü.

Modül 13'te (Self-Supervised AD) bu konuyu derinleştireceğiz.

Karar Akışı: Hangi Rejimi Seçeyim?#

Aşağıdaki akış diyagramı ilk adımın için bir karar rehberi:

[Etiketli anomali örneğin var mı?]
        ↓
        ├── Hayır → [Saf normal verin bol mu?]
        │              ├── Evet → Semi-supervised (OCSVM, VAE, AE)
        │              └── Hayır → Unsupervised (iForest, LOF, HBOS)
        │
        ├── Çok az (<100) → [Etiket toplama gücü var mı?]
        │                       ├── Evet → Active learning + semi-supervised
        │                       └── Hayır → Few-shot supervised + Augmentation
        │
        ├── Orta (100-5000) → Weakly-supervised + Snorkel + Supervised tune
        │
        └── Çok (5000+) → [Class imbalance ne?]
                            ├── 1:10 - 1:1000 → Supervised + SMOTE/class weight
                            └── 1:10000+      → Supervised + focal loss + ensemble

💼 Gerçek Hayat Örnek Vaka

Türk bir bankada fraud ekibi 2022'de pure supervised XGBoost ile başladı. PR-AUC 0.42'ydi. 2023'te Isolation Forest ekleyip ensemble yaptılar → 0.51. 2024'te semi-supervised AE eklediler → 0.58. Sonra active learning ile etiket toplamayı hızlandırdılar → 0.66. 2025 başında self-supervised contrastive AD eklediler → 0.71. Hiçbir rejim tek başına yetmedi. Sırada graph + transformer var (2026 hedef 0.78+).

Bu Rejimleri Hangi Modüllerde Kullanacağız?#

Rejim	Esas modül	Capstone
Unsupervised	5-9 (Klasik ML), 10 (AE)	Capstone 4 (CWRU), Capstone 5 (Vision)
Semi-supervised	8 (OCSVM/SVDD), 10 (AE), 24 (Vision)	Capstone 5, Capstone 6
Supervised	19 (Fraud), 25 (Healthcare)	Capstone 1, Capstone 2
Weakly-supervised	19 (Snorkel), 25 (Healthcare)	Capstone 2 (UEBA)
Active learning	19, 24, 29 (Threshold)	Capstone 1
Self-supervised	13 (Self-sup), 14 (Transformer)	Capstone 5

Yani rejim seçimi sürekli yapacağın bir karar. Bir capstone'a girerken "bu sektörde başlangıç rejimi ne?" sorusu hep ilk soru olmalı.

👉 Bir sonraki ders

Ders 1.4 — Anomali Detection Pipeline Anatomisi. Ingestion → feature engineering → scoring → thresholding → alerting → feedback loop akışını uçtan uca inceleyeceğiz. Bir AD modeli production'a nasıl konulur, hangi yerlerde kötü olur, nasıl observability eklenir.

Sık Sorulan Sorular

Evet, hatta yaygın. Çoğu prod AD sistemi unsupervised baseline ile başlar (iForest veya AE). Sonra zaman içinde etiket biriktikçe supervised tune eklenir. Bu hibrit yaklaşım 'cold start'tan çıkışın standart yolu.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Kurs Çerçevesi ve Atölye Kurulumu