Üç Anomali Tipi: Point, Contextual ve Collective — Hangi Yöntem Hangisi İçin?
Anomalilerin üç temel tipi: nokta anomalileri (point), bağlamsal anomaliler (contextual) ve toplu anomaliler (collective). Her tip için 6 sektörel örnek, görsel sezgi ve uygun yöntem haritası.
Şükrü Yusuf KAYA
28 dakikalık okuma
Başlangıç🗂️ Tipoloji önce, algoritma sonra
Anomalileri üç tipe ayırmak akademik bir kıvılcım gibi görünebilir. Ama production tarafında bu ayrım kritik: yanlış tipi yanlış algoritmayla saldırırsan, %90 false positive ile dönersin. Bu derste Chandola'nın 2009 taksonomisini detaylı ele alacağız, her tipe 6 sektörel örnek vereceğiz ve her tipte hangi yöntemin parlak olduğunu göstereceğiz.
Chandola, Banerjee, Kumar (2009): Üç Tip#
2009'da yayımlanan Anomaly Detection: A Survey makalesi — Chandola, Banerjee
ve Kumar tarafından — anomaly detection'ın bugün hâlâ standart taksonomisini
ortaya koydu. Üç tip vardı:
- Point Anomaly (nokta anomalisi) — tek bir gözlem, dağılımın geri kalanından farklı
- Contextual Anomaly (bağlamsal anomali) — bir gözlem belirli bir bağlamda anomali, başka bağlamda normal
- Collective Anomaly (toplu anomali) — tek tek gözlemler normal ama bir grup birlikte anormal
Bu üç tip birbirinin üstüne binebilir (overlap edebilir) ama temelde farklı algoritmik yaklaşımlar gerektirir. Aşağıda her birini derinlemesine inceleyeceğiz.
1️⃣ Point Anomaly — Tek Gözlemin Aykırılığı#
Tanım: Tek bir gözlem, geri kalan verinin oluşturduğu dağılımdan kendi başına uzaklaşıyor.
Karakteristik: En basit ve en sık karşılaşılan tip. İstatistiksel testler ve klasik ML yöntemleri burada parlar.
Görsel sezgi: 2D düzlemde Gauss kümesinin ortasında binlerce nokta varken, kümeden uzakta tek başına duran bir nokta.
Point Anomaly — 6 Sektörel Örnek#
| # | Sektör | Olay | Neden point anomaly? |
|---|---|---|---|
| 1 | Kart işlemi | 50.000 TL'lik tek işlem; müşterinin ortalaması 100 TL | Tek işlem, dağılımın çok dışında |
| 2 | Web sunucusu | Tek bir request 30 saniye sürmüş; ortalama 50ms | Tek nokta, geri kalanın dışında |
| 3 | Sensör | Sıcaklık tek bir okumada 200°C; gerçek 20°C | Tek değer, açık fiziksel imkansızlık |
| 4 | Kullanıcı login | Tek girişte 50 kez yanlış şifre denemesi | Tek event, geri kalanın dışında |
| 5 | Üretim hattı | Tek bir ürün 30g; nominal 200g ± 5g | Tek nokta, kabul aralığı dışında |
| 6 | Tıbbi laboratuvar | Tek bir kan ölçümünde glikoz 600 mg/dL | Tek nokta, fizyolojik aralık dışında |
Point Anomaly İçin Uygun Yöntemler#
| Yöntem ailesi | Spesifik algoritmalar | Performans not |
|---|---|---|
| İstatistiksel | z-score, MAD, IQR, Grubbs, ESD | Çok hızlı, çok yorumlanabilir |
| Distance-based | kNN, weighted kNN | Orta hız, basit sezgi |
| Density-based | LOF, COF, LoOP | Lokal yoğunluk farkı için iyi |
| Tree-based | Isolation Forest, HBOS | Yüksek-boyutta hızlı |
| One-class | OCSVM, SVDD | Decision boundary'i öğrenir |
Pratik kural: Point anomaly için iForest + LOF kombinasyonu çoğu vakada %85-95 PR-AUC verir. Üstüne deep learning eklemeye genellikle gerek yok.
2️⃣ Contextual Anomaly — Bağlama Göre Aykırılık#
Tanım: Bir gözlem, belirli bir bağlam içinde anomali; aynı gözlem başka bir bağlamda normal olur.
Karakteristik: İki tür özellik gerektirir: (a) kontekstüel özellik (zaman, lokasyon, müşteri profili gibi) ve (b) davranışsal özellik (asıl ölçüm).
Görsel sezgi: Zaman serisinde Aralık ayında 50°C okunan bir sıcaklık — Aralık bağlamında anomali, ama Temmuz bağlamında normal olabilir.
Contextual Anomaly — 6 Sektörel Örnek#
| # | Sektör | Bağlam | Davranış | Neden contextual? |
|---|---|---|---|---|
| 1 | Bankacılık | Saat: 03:42 | 50 TL EFT | Tutar normal ama gece saati anomali |
| 2 | E-ticaret | Şehir: Erzurum | Mayotte adasından login | Tutar/aksiyon normal ama bağlam (lokasyon) anomali |
| 3 | İklim | Ay: Şubat | Sıcaklık 28°C | Sıcaklık normal aralıkta ama mevsim bağlamında anomali |
| 4 | Üretim | Vardiya: gece | Üretim hızı 2x | Hız ölçülebilir ama gece vardiyasında 2x beklenmedik |
| 5 | Network | Kaynak: marketing PC | SSH 22 portu trafiği | Trafik kendi başına normal ama kaynak bağlamında anomali |
| 6 | Healthcare | Yaş: 25 | Kan basıncı 180/110 | Değer extremde değil ama 25 yaşında anomali |
Contextual Anomaly İçin Uygun Yöntemler#
| Yöntem ailesi | Spesifik algoritmalar | Performans not |
|---|---|---|
| Conditional | Conditional anomaly detection (CAD) | Bağlam koşulları üzerinde |
| Regression-based | Prophet residual, SARIMA + threshold | Time series için altın standart |
| Mixture models | GMM with covariates | Bağlam bağımlı dağılım |
| Deep contextual | Anomaly Transformer, ContextNet | Bağlam embedding |
| Bayesian | Bayesian change point detection | Bağlam değişimi |
Önemli: Saf point-based yöntemler (z-score, iForest) contextual anomalileri kaçırır. Gece 03:42'deki 50 TL'lik EFT'yi iForest fark etmez çünkü 50 TL tutar olarak orta seviyede. Bağlam (saat) feature olarak eklenmedikçe model kör kalır.
🧪 Contextual için feature engineering şart
Bir AD modeli kendiliğinden bağlamı keşfetmez. 'Saat', 'gün/ay', 'mevsim', 'müşteri tipi', 'lokasyon hash'i' gibi kontekstüel özellikleri açık açık feature olarak vermeniz gerekir. Feature engineering çoğu fraud takımının zamanlarının %60'ını yiyen iştir — algoritma değil.
3️⃣ Collective Anomaly — Birlikte Anomali#
Tanım: Tek tek gözlemler normal görünür ama bir grup olarak baktığında anomali pattern'i ortaya çıkar.
Karakteristik: Bireysel level'da yakalanması imkansız. Sıra, frekans veya birlikte var olma örüntüsünü yakalayan modeller gerekir.
Görsel sezgi: Bir EKG sinyalinde tek tek değerler normal aralıkta ama ardışık 5 saniye boyunca düz çizgi → kalp ritmi durdu (asistoli) collective anomaly.
Collective Anomaly — 6 Sektörel Örnek#
| # | Sektör | Birim gözlem | Grup pattern | Neden collective? |
|---|---|---|---|---|
| 1 | EKG | Her sinyal okuması | 5 saniye düz çizgi | Tek tek normal ama dizi anomali |
| 2 | Network | Her paket küçük | 10.000 paket / 5 saniye aynı kaynak | Tek paket normal, dizi DDoS |
| 3 | Bankacılık | Her işlem 9.500 TL | 11 işlem ardışık | Tek tek normal, dizi yapılandırılmış havale |
| 4 | Log | Her INFO satırı | Aynı log satırı 1M kez 30 saniyede | Tek normal, repeat anomali |
| 5 | Üretim | Her ürün geçer | 50 ardışık ürünün tümünde aynı küçük leke | Tek tek normal, sistematik kalibrasyon hatası |
| 6 | Web traffic | Her tıklama | Tüm tıklamalar tam 3 saniye aralıkta | Tek tıklama normal, periyot anomali (bot) |
Collective Anomaly İçin Uygun Yöntemler#
| Yöntem ailesi | Spesifik algoritmalar | Performans not |
|---|---|---|
| Sequence-based | LSTM-AE, Transformer encoder | Sıralı veride güçlü |
| Frequent pattern | Apriori, FP-Growth | Discrete event/log |
| Change point | CUSUM, BOCPD, ruptures | Pattern değişimi |
| Window-based | Sliding window + iForest | Toplu özellik çıkarma |
| Graph-based | DOMINANT, CARE-GNN | İlişkisel collective |
Pratik gözlem: Collective anomaly'ler en pahalı yakalananlardır. Çoğu compliance failure (BSA — Bank Secrecy Act violations, KYC eksikleri) collective anomaly tipinde olur. Bu yüzden bankacılık ekiplerinde sıralı/grup-modeller daima takım kompozisyonunda olmalıdır.
Üç Tip Yan Yana — Karar Matrisi#
Aşağıdaki tablo bir gözlemle karşılaştığında hangi tipte olduğunu nasıl
tartacağına yardımcı olur:
| Soru | Point | Contextual | Collective |
|---|---|---|---|
| Tek başına dağılımın dışında mı? | ✅ Evet | ❌ Hayır | ❌ Hayır (genelde) |
| Bağlamla birlikte anomali mi? | ❌ Bağlam gereksiz | ✅ Evet | ❌ Bağlam yeterli değil |
| Grup/dizi olarak mı anomali? | ❌ Tek gözlem yeter | ❌ Tek gözlem + bağlam | ✅ Evet, grup şart |
| Yakalama zorluğu | Düşük | Orta | Yüksek |
| Tipik yöntem | iForest, LOF, z-score | Prophet residual, conditional AD | LSTM-AE, sequence model, change point |
| False positive riski | Düşük (basit kurallar) | Orta (bağlam karmaşık) | Yüksek (window size hassas) |
| Compliance senaryosu | Bireysel kural ihlali | Davranış sapması | Yapılandırılmış suç (structured) |
Karar Akışı#
- Önce sor: Tek başına aykırı mı? → Point. (Z-score, iForest)
- Aykırı değilse: Bağlam farkıyla mı aykırı? → Contextual. (Prophet residual, conditional)
- Hâlâ değilse: Grup pattern'i mi var? → Collective. (LSTM-AE, change point)
- Üçü de değilse: muhtemelen anomali değil, outlier veya noise.
Gerçek Pipeline'da Üç Tip Birlikte Çalışır#
Production'da nadiren tek tipi modellersin. Bir banka fraud pipeline'ı tipik
olarak şöyle olur:
[Transaction] ↓ [Point AD] — iForest: tutar/feature uzaklığı ↓ [Contextual AD] — XGBoost: müşteri-saat-merchant bağlamlı ↓ [Collective AD] — LSTM-AE: 24 saat içindeki transaction dizisi ↓ [Ensemble Score] — üç skorun ağırlıklı birleşimi ↓ [Threshold + Alert]
Her tip kendi anomalisini yakalar:
- Point: Hesap kartından tek 100.000 TL EFT
- Contextual: Gece 03:00'te 200 TL EFT (yeni alıcıya)
- Collective: 4 saat içinde 11 ardışık 9.500 TL EFT (structuring)
Üçü ensemble'da birleşince kapsama (coverage) artıyor. Hiçbiri tek başına yeterli değil.
⚠️ Sık karşılaşılan production hatası
Yeni başlayanların ortak hatası: tek bir algoritmayı (genelde iForest veya LSTM-AE) çoklu anomali tipi için kullanmaya çalışmak. iForest contextual anomalileri yakalayamaz çünkü 'saat' feature'ı tek başına eklemek bağlamı modellemeye yetmez. LSTM-AE point anomalileri için aşırı karmaşık ve yavaş. Doğru tip → doğru algoritma eşleştirmesi production'da %40-60 PR-AUC farkı yaratır.
İleri Konu: Hibrit Tipler#
Pratikte anomaliler nadiren saf bir tipte olur. Üç hibrit yaygındır:
Hibrit 1: Point-in-Context (Karma 1+2)#
Bir nokta hem dağılımın dışında hem bağlamda anomali. Örn. yeni
müşterinin (point) ilk işlemi gece 03:00 (contextual). İki sinyali birden
yakalayabilen modeller (ensemble veya multi-task) en yüksek recall verir.
Hibrit 2: Collective-in-Context (Karma 2+3)#
Bağlamı belirli olan bir grup pattern. Örn. e-ticaret sitesinde Pazartesi
sabahı 30 saniyede 1000 add-to-cart (bağlam: pazartesi, davranış: collective).
Pazartesi normalden farklı bağlam ama add-to-cart dizisi collective anomali.
Hibrit 3: Causal Collective (Karma 1+3 + nedensellik)#
Tek tek normal, grup pattern anomali, ve bir nedensel ilişki
ipucu var. Örn. SOC'ta önce bir authentication failure (point),
arkasından port scan (collective), arkasından lateral movement (collective).
Üçü ardışık zincirleyince kill chain ortaya çıkıyor. Bu seviye Modül 28
(Causal AD) konusu.
Bu Tipler Hangi Modüllerde Pekişecek?#
| Tip | Esas modül | Capstone |
|---|---|---|
| Point | Modül 2 (istatistik), 5-9 (klasik ML) | Capstone 1 (Fraud), Capstone 5 (Vision QC) |
| Contextual | Modül 15-16 (TS), 19 (Fraud) | Capstone 1, 7 (SLO breach) |
| Collective | Modül 16-17 (TS sequence), 21 (Log) | Capstone 3 (SOC), Capstone 7 |
| Hibrit | Modül 26 (Graph), 28 (Causal) | Capstone 2 (UEBA), Capstone 8 (e-ticaret) |
Yani üç tip kursun omurgasıdır — her modülde bir veya birkaçıyla
çalışacaksın. Bugün net olarak ayırırsan, sonraki tüm modüllerde
"hangi tipi modellemiyoruz" sorusunu net cevaplayabilirsin.
👉 Bir sonraki ders
Ders 1.3 — Öğrenme Rejimleri. Aynı tipler için farklı öğrenme rejimleri (supervised, semi-supervised, unsupervised, weakly-supervised) kullanılıyor. Hangi rejim hangi durumda? Etiket pahalılığı, sektörel uygulanabilirlik, ve hibrit yaklaşımlar — bir sonraki dersin konusu.
Sık Sorulan Sorular
Hayır, sıklıkla bulanık. Bir gece 03:00'te yapılan 100.000 TL'lik tek EFT hem point (tutar büyüklüğü) hem contextual (saat) anomalisi. Pratikte sınıflandırma keskin değil — önemli olan modellemeyi her üç açıdan da yapabilmek. Bir model sadece point yakalıyorsa diğer iki tipi kaçırır.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
Anomaly Detection Engineer Kimdir? Fraud, SRE, Quality Engineer ile Farklar ve Türkiye Maaş Manzarası
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — Anomaly Detection Öğrenme Nehri
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu