Anomali Tespiti
Anomaly Detection Engineer rolünün ML Engineer, Fraud Analyst, SRE, Quality Engineer ile farkları; yetkinlik matrisi, kıdem seviyeleri, Türkiye ve global maaş aralıkları, günlük iş akışı, sektör beklentileri.
İçindekiler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
- 1
Anomaly Detection Engineer Kimdir? Fraud, SRE, Quality Engineer ile Farklar ve Türkiye Maaş Manzarası
Anomaly Detection Engineer rolünün ML Engineer, Fraud Analyst, SRE, Quality Engineer ile farkları; yetkinlik matrisi, kıdem seviyeleri, Türkiye ve global maaş aralıkları, günlük iş akışı, sektör beklentileri.
- 2
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — Anomaly Detection Öğrenme Nehri
İstatistik → klasik ML → deep learning → time series → domain → production sıralamasını neden seçtik; öğrenme nehri modeli, hangi capstone'la hangi yetenek inşa ediliyor, kursta hangi 5 prensibi takip edeceğiz.
- 3
Atölye Kurulumu: uv + Python 3.12 + PyOD + anomalib + PyTorch — Sıfırdan Production-Ready Anomaly Detection Ortamı
Anomaly detection için uv ile Python 3.12 sanal ortam, PyTorch 2.5+, PyOD, anomalib, alibi-detect, river, Jupyter Lab kurulumu; Windows WSL2, macOS MPS ve Linux CUDA için adım adım rehber.
- 4
Veri Hesapları & Cloud: Kaggle, HuggingFace, Numenta, MVTec, NASA — Anomaly Detection Veri Cephaneliği
Kursta kullanacağımız 18 veri kümesinin nereden indirileceği, Kaggle API kurulumu, HuggingFace datasets, Numenta NAB, MVTec AD, NASA Turbofan, CWRU bearing, IEEE-CIS Fraud — ve Google Colab/RunPod ile ücretsiz GPU erişimi.
Modül 1: Anomali Tanımı, Tipoloji ve Taksonomi
- 1
Anomali, Outlier, Novelty, Noise: Birbirine Karıştırılan Dört Kavramın Hassas Farkları
Akademik literatürde ve sektörde sık sık birbirinin yerine kullanılan anomali, outlier, novelty ve noise kavramları arasındaki kesin farklar; Hawkins tanımı; bu farklar neden production'da kritik?
- 2
Üç Anomali Tipi: Point, Contextual ve Collective — Hangi Yöntem Hangisi İçin?
Anomalilerin üç temel tipi: nokta anomalileri (point), bağlamsal anomaliler (contextual) ve toplu anomaliler (collective). Her tip için 6 sektörel örnek, görsel sezgi ve uygun yöntem haritası.
- 3
Öğrenme Rejimleri: Supervised, Semi-Supervised, Unsupervised, Weakly-Supervised — Etiket Kıtlığı Altında Karar
Anomaly detection için dört öğrenme rejimi: supervised, semi-supervised, unsupervised, weakly-supervised. Etiket pahalılığı tablosu, hangi sektörde hangi rejim, ve hibrit yaklaşımlar.
- 4
Anomaly Detection Pipeline Anatomisi: Ingestion'dan Alarm'a Uçtan Uca 7 Katman
Production-grade anomaly detection pipeline'ının 7 katmanı: ingestion, feature engineering, scoring, thresholding, alerting, feedback loop, monitoring. Her katmanda kritik kararlar ve ölçüm noktaları.
- 5
Hands-on Lab: Üç Anomali Tipini Sentetik Veriyle Görselleştirme — Python + Matplotlib + Plotly
Pratik laboratuvar: Python ile sentetik veri üreterek üç anomali tipini (point, contextual, collective) görselleştir; iForest, Prophet residual ve LSTM-AE ile her tipi tespit et; interaktif Plotly dashboard'u kur.
Modül 2: İstatistiksel Temeller
- 1
Normal Dağılım, Z-Score, Modified Z-Score ve MAD: Anomaly Detection'ın İstatistiksel Aleti
Normal dağılımın anomaly detection için anlamı; z-score formülü, sezgisi ve sınırları; modified z-score ve MAD (Median Absolute Deviation) — outlier'a dirençli alternatifler; from-scratch Python implementasyon.
- 2
IQR, Tukey's Fences ve Adjusted Boxplot: Skewed Veride Outlier Tespiti
Interquartile Range (IQR), Tukey's fences (k=1.5 / k=3), boxplot anatomi, ve skewed (asimetrik) veride medcouple ile adjusted boxplot — z-score'un işe yaramadığı yerlerde robust alternatifler.
- 3
Grubbs, Dixon ve Generalized ESD: Outlier Tespitini Hipotez Testine Çevirmek
Klasik istatistiksel hipotez testleri ile outlier tespiti: Grubbs test (tek outlier), Dixon Q-test (küçük örneklem), Generalized ESD (çoklu outlier) — p-değer, formüller, scipy implementasyonu, ve hangi test ne zaman.
- 4
Chebyshev, Extreme Value Theory ve Peak Over Threshold: Uç Olayların İstatistiği
Normal varsayımı geçmediğinde: Chebyshev eşitsizliği ile dağılım-agnostik sınır; Extreme Value Theory (block maxima, GEV); Peak Over Threshold (POT) ile Generalized Pareto Distribution — banking ve telekomda baş aktör.
- 5
Robust İstatistikler: Huber, M-Estimator, Tukey Biweight ve MCD — Outlier'a Dirençli Tahmin
Klasik istatistiğin outlier'a karşı kırılganlığı; robust istatistik felsefesi; M-estimator çatısı; Huber ve Tukey biweight loss; Minimum Covariance Determinant (MCD) ile robust çok-değişkenli tahmin — modern AD'nin gizli temeli.
- 6
Hands-on Lab: NYC Taxi Talep Anomalisinde 5 İstatistiksel Detektör Karşılaştırma
Numenta NAB benchmark'ından NYC Taxi saatlik talep verisi: z-score, modified z, IQR, adjusted boxplot ve POT detektörlerini yan yana koşturup PR-AUC karşılaştırması — kursun ilk gerçek dataset hands-on lab'ı.
Modül 3: Veri Hazırlığı, Imbalanced Data ve Etiketleme
- 1
Class Imbalance Problemi: 1:1.000.000 Oranında Fraud ve Neden Accuracy Yalan Söyler
Anomaly detection'ın temel zorluğu: dengesiz sınıf dağılımı. 1:1.000.000 oranlarında neden klasik ML çöker, accuracy paradoksu, imbalanced learning'in matematiksel ve pratik etkileri, sektörel imbalance tablosu.
- 2
Sampling Stratejileri: SMOTE, ADASYN, Borderline-SMOTE, SMOTE-NC — Sentetik Pozitif Üretmenin Sanatı
Imbalanced veride sentetik pozitif örnek üretme: Random oversampling/undersampling, SMOTE, ADASYN, Borderline-SMOTE, SMOTE-NC (numeric + categorical), SMOTE-Tomek hibrit; imblearn pipeline'ı ve sık karşılaşılan tuzaklar.
- 3
Cost-Sensitive Learning ve Focal Loss: Loss Function'ı Imbalanced'a Eğitmek
Sampling alternatifi: loss function'ı değiştirme. Cost matrix, class weight, sample weight, asymmetric loss, focal loss (Lin et al., 2017), Tversky loss, ve imbalanced AD'de pratik uygulamalar.
- 4
Weak Supervision ve Snorkel: Etiket Pahalı Olduğunda Programmatic Labeling
Manuel etiket pahalı olduğunda 'programmatic labeling': Snorkel framework, labeling functions, label model (generative), Cleanlab ile etiket düzeltme, weak supervision'ın güçlü ve zayıf yönleri.
- 5
Hands-on Lab: IEEE-CIS Fraud Verisinde 4 Sampling Stratejisi Benchmark
Kaggle IEEE-CIS Fraud Kaggle verisinde 4 imbalance stratejisi (baseline / SMOTE / class_weight / focal loss) yan yana koşturulup PR-AUC, recall@k ve maliyet karşılaştırması — Capstone 1'in temel taşı.