İçeriğe geç

Üç Anomali Tipi: Point, Contextual ve Collective — Hangi Yöntem Hangisi İçin?

Anomalilerin üç temel tipi: nokta anomalileri (point), bağlamsal anomaliler (contextual) ve toplu anomaliler (collective). Her tip için 6 sektörel örnek, görsel sezgi ve uygun yöntem haritası.

Şükrü Yusuf KAYA
28 dakikalık okuma
Başlangıç
Üç Anomali Tipi: Point, Contextual ve Collective — Hangi Yöntem Hangisi İçin?
🗂️ Tipoloji önce, algoritma sonra
Anomalileri üç tipe ayırmak akademik bir kıvılcım gibi görünebilir. Ama production tarafında bu ayrım kritik: yanlış tipi yanlış algoritmayla saldırırsan, %90 false positive ile dönersin. Bu derste Chandola'nın 2009 taksonomisini detaylı ele alacağız, her tipe 6 sektörel örnek vereceğiz ve her tipte hangi yöntemin parlak olduğunu göstereceğiz.

Chandola, Banerjee, Kumar (2009): Üç Tip#

2009'da yayımlanan Anomaly Detection: A Survey makalesi — Chandola, Banerjee ve Kumar tarafından — anomaly detection'ın bugün hâlâ standart taksonomisini ortaya koydu. Üç tip vardı:
  1. Point Anomaly (nokta anomalisi) — tek bir gözlem, dağılımın geri kalanından farklı
  2. Contextual Anomaly (bağlamsal anomali) — bir gözlem belirli bir bağlamda anomali, başka bağlamda normal
  3. Collective Anomaly (toplu anomali) — tek tek gözlemler normal ama bir grup birlikte anormal
Bu üç tip birbirinin üstüne binebilir (overlap edebilir) ama temelde farklı algoritmik yaklaşımlar gerektirir. Aşağıda her birini derinlemesine inceleyeceğiz.
Üç anomali tipinin görsel temsili: point (izole nokta), contextual (bağlama göre), collective (grup pattern).
Anomali tipolojisi — üç tip yan yana görsel sezgi.

1️⃣ Point Anomaly — Tek Gözlemin Aykırılığı#

Tanım: Tek bir gözlem, geri kalan verinin oluşturduğu dağılımdan kendi başına uzaklaşıyor.
Karakteristik: En basit ve en sık karşılaşılan tip. İstatistiksel testler ve klasik ML yöntemleri burada parlar.
Görsel sezgi: 2D düzlemde Gauss kümesinin ortasında binlerce nokta varken, kümeden uzakta tek başına duran bir nokta.

Point Anomaly — 6 Sektörel Örnek#

#SektörOlayNeden point anomaly?
1Kart işlemi50.000 TL'lik tek işlem; müşterinin ortalaması 100 TLTek işlem, dağılımın çok dışında
2Web sunucusuTek bir request 30 saniye sürmüş; ortalama 50msTek nokta, geri kalanın dışında
3SensörSıcaklık tek bir okumada 200°C; gerçek 20°CTek değer, açık fiziksel imkansızlık
4Kullanıcı loginTek girişte 50 kez yanlış şifre denemesiTek event, geri kalanın dışında
5Üretim hattıTek bir ürün 30g; nominal 200g ± 5gTek nokta, kabul aralığı dışında
6Tıbbi laboratuvarTek bir kan ölçümünde glikoz 600 mg/dLTek nokta, fizyolojik aralık dışında

Point Anomaly İçin Uygun Yöntemler#

Yöntem ailesiSpesifik algoritmalarPerformans not
İstatistikselz-score, MAD, IQR, Grubbs, ESDÇok hızlı, çok yorumlanabilir
Distance-basedkNN, weighted kNNOrta hız, basit sezgi
Density-basedLOF, COF, LoOPLokal yoğunluk farkı için iyi
Tree-basedIsolation Forest, HBOSYüksek-boyutta hızlı
One-classOCSVM, SVDDDecision boundary'i öğrenir
Pratik kural: Point anomaly için iForest + LOF kombinasyonu çoğu vakada %85-95 PR-AUC verir. Üstüne deep learning eklemeye genellikle gerek yok.

2️⃣ Contextual Anomaly — Bağlama Göre Aykırılık#

Tanım: Bir gözlem, belirli bir bağlam içinde anomali; aynı gözlem başka bir bağlamda normal olur.
Karakteristik: İki tür özellik gerektirir: (a) kontekstüel özellik (zaman, lokasyon, müşteri profili gibi) ve (b) davranışsal özellik (asıl ölçüm).
Görsel sezgi: Zaman serisinde Aralık ayında 50°C okunan bir sıcaklık — Aralık bağlamında anomali, ama Temmuz bağlamında normal olabilir.

Contextual Anomaly — 6 Sektörel Örnek#

#SektörBağlamDavranışNeden contextual?
1BankacılıkSaat: 03:4250 TL EFTTutar normal ama gece saati anomali
2E-ticaretŞehir: ErzurumMayotte adasından loginTutar/aksiyon normal ama bağlam (lokasyon) anomali
3İklimAy: ŞubatSıcaklık 28°CSıcaklık normal aralıkta ama mevsim bağlamında anomali
4ÜretimVardiya: geceÜretim hızı 2xHız ölçülebilir ama gece vardiyasında 2x beklenmedik
5NetworkKaynak: marketing PCSSH 22 portu trafiğiTrafik kendi başına normal ama kaynak bağlamında anomali
6HealthcareYaş: 25Kan basıncı 180/110Değer extremde değil ama 25 yaşında anomali

Contextual Anomaly İçin Uygun Yöntemler#

Yöntem ailesiSpesifik algoritmalarPerformans not
ConditionalConditional anomaly detection (CAD)Bağlam koşulları üzerinde
Regression-basedProphet residual, SARIMA + thresholdTime series için altın standart
Mixture modelsGMM with covariatesBağlam bağımlı dağılım
Deep contextualAnomaly Transformer, ContextNetBağlam embedding
BayesianBayesian change point detectionBağlam değişimi
Önemli: Saf point-based yöntemler (z-score, iForest) contextual anomalileri kaçırır. Gece 03:42'deki 50 TL'lik EFT'yi iForest fark etmez çünkü 50 TL tutar olarak orta seviyede. Bağlam (saat) feature olarak eklenmedikçe model kör kalır.
🧪 Contextual için feature engineering şart
Bir AD modeli kendiliğinden bağlamı keşfetmez. 'Saat', 'gün/ay', 'mevsim', 'müşteri tipi', 'lokasyon hash'i' gibi kontekstüel özellikleri açık açık feature olarak vermeniz gerekir. Feature engineering çoğu fraud takımının zamanlarının %60'ını yiyen iştir — algoritma değil.

3️⃣ Collective Anomaly — Birlikte Anomali#

Tanım: Tek tek gözlemler normal görünür ama bir grup olarak baktığında anomali pattern'i ortaya çıkar.
Karakteristik: Bireysel level'da yakalanması imkansız. Sıra, frekans veya birlikte var olma örüntüsünü yakalayan modeller gerekir.
Görsel sezgi: Bir EKG sinyalinde tek tek değerler normal aralıkta ama ardışık 5 saniye boyunca düz çizgi → kalp ritmi durdu (asistoli) collective anomaly.

Collective Anomaly — 6 Sektörel Örnek#

#SektörBirim gözlemGrup patternNeden collective?
1EKGHer sinyal okuması5 saniye düz çizgiTek tek normal ama dizi anomali
2NetworkHer paket küçük10.000 paket / 5 saniye aynı kaynakTek paket normal, dizi DDoS
3BankacılıkHer işlem 9.500 TL11 işlem ardışıkTek tek normal, dizi yapılandırılmış havale
4LogHer INFO satırıAynı log satırı 1M kez 30 saniyedeTek normal, repeat anomali
5ÜretimHer ürün geçer50 ardışık ürünün tümünde aynı küçük lekeTek tek normal, sistematik kalibrasyon hatası
6Web trafficHer tıklamaTüm tıklamalar tam 3 saniye aralıktaTek tıklama normal, periyot anomali (bot)

Collective Anomaly İçin Uygun Yöntemler#

Yöntem ailesiSpesifik algoritmalarPerformans not
Sequence-basedLSTM-AE, Transformer encoderSıralı veride güçlü
Frequent patternApriori, FP-GrowthDiscrete event/log
Change pointCUSUM, BOCPD, rupturesPattern değişimi
Window-basedSliding window + iForestToplu özellik çıkarma
Graph-basedDOMINANT, CARE-GNNİlişkisel collective
Pratik gözlem: Collective anomaly'ler en pahalı yakalananlardır. Çoğu compliance failure (BSA — Bank Secrecy Act violations, KYC eksikleri) collective anomaly tipinde olur. Bu yüzden bankacılık ekiplerinde sıralı/grup-modeller daima takım kompozisyonunda olmalıdır.

Üç Tip Yan Yana — Karar Matrisi#

Aşağıdaki tablo bir gözlemle karşılaştığında hangi tipte olduğunu nasıl tartacağına yardımcı olur:
SoruPointContextualCollective
Tek başına dağılımın dışında mı?✅ Evet❌ Hayır❌ Hayır (genelde)
Bağlamla birlikte anomali mi?❌ Bağlam gereksiz✅ Evet❌ Bağlam yeterli değil
Grup/dizi olarak mı anomali?❌ Tek gözlem yeter❌ Tek gözlem + bağlam✅ Evet, grup şart
Yakalama zorluğuDüşükOrtaYüksek
Tipik yöntemiForest, LOF, z-scoreProphet residual, conditional ADLSTM-AE, sequence model, change point
False positive riskiDüşük (basit kurallar)Orta (bağlam karmaşık)Yüksek (window size hassas)
Compliance senaryosuBireysel kural ihlaliDavranış sapmasıYapılandırılmış suç (structured)

Karar Akışı#

  1. Önce sor: Tek başına aykırı mı? → Point. (Z-score, iForest)
  2. Aykırı değilse: Bağlam farkıyla mı aykırı? → Contextual. (Prophet residual, conditional)
  3. Hâlâ değilse: Grup pattern'i mi var? → Collective. (LSTM-AE, change point)
  4. Üçü de değilse: muhtemelen anomali değil, outlier veya noise.

Gerçek Pipeline'da Üç Tip Birlikte Çalışır#

Production'da nadiren tek tipi modellersin. Bir banka fraud pipeline'ı tipik olarak şöyle olur:
[Transaction] ↓ [Point AD] — iForest: tutar/feature uzaklığı ↓ [Contextual AD] — XGBoost: müşteri-saat-merchant bağlamlı ↓ [Collective AD] — LSTM-AE: 24 saat içindeki transaction dizisi ↓ [Ensemble Score] — üç skorun ağırlıklı birleşimi ↓ [Threshold + Alert]
Her tip kendi anomalisini yakalar:
  • Point: Hesap kartından tek 100.000 TL EFT
  • Contextual: Gece 03:00'te 200 TL EFT (yeni alıcıya)
  • Collective: 4 saat içinde 11 ardışık 9.500 TL EFT (structuring)
Üçü ensemble'da birleşince kapsama (coverage) artıyor. Hiçbiri tek başına yeterli değil.
⚠️ Sık karşılaşılan production hatası
Yeni başlayanların ortak hatası: tek bir algoritmayı (genelde iForest veya LSTM-AE) çoklu anomali tipi için kullanmaya çalışmak. iForest contextual anomalileri yakalayamaz çünkü 'saat' feature'ı tek başına eklemek bağlamı modellemeye yetmez. LSTM-AE point anomalileri için aşırı karmaşık ve yavaş. Doğru tip → doğru algoritma eşleştirmesi production'da %40-60 PR-AUC farkı yaratır.

İleri Konu: Hibrit Tipler#

Pratikte anomaliler nadiren saf bir tipte olur. Üç hibrit yaygındır:

Hibrit 1: Point-in-Context (Karma 1+2)#

Bir nokta hem dağılımın dışında hem bağlamda anomali. Örn. yeni müşterinin (point) ilk işlemi gece 03:00 (contextual). İki sinyali birden yakalayabilen modeller (ensemble veya multi-task) en yüksek recall verir.

Hibrit 2: Collective-in-Context (Karma 2+3)#

Bağlamı belirli olan bir grup pattern. Örn. e-ticaret sitesinde Pazartesi sabahı 30 saniyede 1000 add-to-cart (bağlam: pazartesi, davranış: collective). Pazartesi normalden farklı bağlam ama add-to-cart dizisi collective anomali.

Hibrit 3: Causal Collective (Karma 1+3 + nedensellik)#

Tek tek normal, grup pattern anomali, ve bir nedensel ilişki ipucu var. Örn. SOC'ta önce bir authentication failure (point), arkasından port scan (collective), arkasından lateral movement (collective). Üçü ardışık zincirleyince kill chain ortaya çıkıyor. Bu seviye Modül 28 (Causal AD) konusu.

Bu Tipler Hangi Modüllerde Pekişecek?#

TipEsas modülCapstone
PointModül 2 (istatistik), 5-9 (klasik ML)Capstone 1 (Fraud), Capstone 5 (Vision QC)
ContextualModül 15-16 (TS), 19 (Fraud)Capstone 1, 7 (SLO breach)
CollectiveModül 16-17 (TS sequence), 21 (Log)Capstone 3 (SOC), Capstone 7
HibritModül 26 (Graph), 28 (Causal)Capstone 2 (UEBA), Capstone 8 (e-ticaret)
Yani üç tip kursun omurgasıdır — her modülde bir veya birkaçıyla çalışacaksın. Bugün net olarak ayırırsan, sonraki tüm modüllerde "hangi tipi modellemiyoruz" sorusunu net cevaplayabilirsin.
👉 Bir sonraki ders
Ders 1.3 — Öğrenme Rejimleri. Aynı tipler için farklı öğrenme rejimleri (supervised, semi-supervised, unsupervised, weakly-supervised) kullanılıyor. Hangi rejim hangi durumda? Etiket pahalılığı, sektörel uygulanabilirlik, ve hibrit yaklaşımlar — bir sonraki dersin konusu.

Sık Sorulan Sorular

Hayır, sıklıkla bulanık. Bir gece 03:00'te yapılan 100.000 TL'lik tek EFT hem point (tutar büyüklüğü) hem contextual (saat) anomalisi. Pratikte sınıflandırma keskin değil — önemli olan modellemeyi her üç açıdan da yapabilmek. Bir model sadece point yakalıyorsa diğer iki tipi kaçırır.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler