Noise tamamen filtrelenirse, model gerçek anomalileri kaçırır mı?

Doğru sorulan kritik soru. Aşırı agresif noise filtrelemesi (örn. tüm 3 sigma sapmasını filtrelemek) gerçek anomalileri de düşürür. Pratik yöntem: noise'ı tek başına yargılama; noise + context (zaman, kaynak) birlikte değerlendir. Modül 3'te bu trade-off'u detaylı işleyeceğiz.

Bir gözlem hem outlier hem anomali hem novelty olabilir mi?

Evet, hatta sık. Bir fraud transaction çoğunlukla üçü birden: tutarı istatistiksel olarak büyük (outlier), farklı bir mekanizmadan (fraud algoritması — anomali), ve model bu fraud şeklini eğitim setinde görmemiş (novelty). Üçünü ayırmamız önemli çünkü her birine farklı bir araç (z-score, ensemble model, OOD detector) cevap verir.

Concept drift bunlardan hangisine girer?

Concept drift novelty'nin **yavaş** versiyonudur. Modelin eğitildiği dağılım zamanla yavaş yavaş değişir; örn. müşteri davranışı 6 ayda kademeli olarak değişir. Drift detection ayrı bir disiplindir (Modül 31), ama kavramsal olarak novelty ailesinin parçasıdır.

Anomaly score eşiği bu kavramlara nasıl bağlanır?

Eşik (threshold) seçimi, outlier/anomaly/noise ayrımının pratik karşılığıdır. Düşük eşik → çok outlier yakalarsın ama noise da girer. Yüksek eşik → noise'ı atarsın ama gerçek anomaliyi de kaçırırsın. Modül 29'da threshold engineering'i bütünüyle ele alacağız (POT, dynamic threshold, calibration).

Anomaly, Outlier, Novelty, Noise: Precise Differences Between Four Frequently Confused Concepts

Precise distinctions between anomaly, outlier, novelty, and noise — terms often used interchangeably in academia and industry; Hawkins's definition; why these distinctions are critical in production.

Şükrü Yusuf KAYA

30 min read

6/24/2026

Beginner

Anomali, Outlier, Novelty, Noise: Birbirine Karıştırılan Dört Kavramın Hassas Farkları

🧠 Hassas tanımlar, hassas mühendislik

Bu disiplinde dört kelime sürekli birbirinin yerine kullanılır: anomali, outlier, novelty, noise. Görüşmelerde, paper'larda, hatta resmi compliance belgelerinde bile karıştırılır. Bu derste her birinin net tanımını koyacağız ve aralarındaki farkı production'da neden önemli olduğunu göstereceğiz. Bittiğinde 'bu bir outlier mi, anomali mi?' sorusuna kesin cevap verebilir hâle geleceksin.

Hawkins 1980: Modern Tanımın Anası#

Anomaly detection literatürünün büyük çoğunluğu Douglas Hawkins'in 1980'de yayımlanan Identification of Outliers kitabındaki tanımdan beslenir:

Definition

Hawkins, 1980 — Outlier: "An observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism." Türkçesi: "Diğer gözlemlerden o kadar farklı bir gözlem ki, farklı bir mekanizma tarafından üretildiği şüphesini doğurur."

Bu cümlenin altı çizilmesi gereken üç parçası var:

"Diğer gözlemlerden farklı" — bir gözlemin anomali olabilmesi için bir referans dağılımın olması şart. Tek bir gözlem anomali olamaz.
"O kadar farklı ki" — bu kelime istatistiksel anlamlılık kapısını açar. Ne kadar uzaklaşırsa şüphe doğar? Modülün ileriki derslerinde z-score, MAD, Grubbs test, EVT'ye geleceğiz.
"Farklı bir mekanizma tarafından üretildi" — bu en kritik kısım. Anomali sadece uzak olmak değil, farklı bir süreç tarafından üretilmiş olmaktır. Bir karttan yapılan 50.000 TL'lik harcama uzak bir gözlem olabilir; ama eğer bu kart sahibi her ay 80.000 TL harcayan biriyse, uzak değil normal demektir. Mekanizma değişimi yok.

Hawkins'in tanımı 45 yıl önceki olsa da bugün hâlâ akademik fiziksel anchor noktasıdır. Modern anomaly detection bütün dallarının kökü bu cümleye uzanır.

🎯 Mekanizma kelimesi her şeyi değiştirir

Anomali = farklı mekanizma. Bu, ML mühendisi olarak senin asıl arayışın uzaklık değil mekanizma değişikliği. Bir transaction'ın anomali olup olmadığını sormak yerine 'bu işlemin altındaki süreç olağan tüketim mekanizması mı, yoksa farklı bir mekanizmadan mı (örn. bot, çalıntı kart, fraud halkası) doğdu?' diye sormalısın.

Dört Kavram, Dört Farklı Olay#

Şimdi dört kelimeyi tek tek ayıralım. Her birini bir cümlede tanımlayacağım, sonra bir örnekle yerleştireceğim, sonra yan yana koyup farkları netleştireceğim.

Tanım: Bir veri dağılımının tipik aralığının dışında kalan gözlem.

Karakteristik: İstatistiksel bir kavram. Dağılım tanımladığın andan itibaren outlier'ın matematiksel olarak tanımlanabilir.

Örnek: Bir okulda öğrencilerin boy ortalaması 165 cm, standart sapması 10 cm. 195 cm boyundaki bir öğrenci outlier'dır (3 standart sapma uzağında). Ama bu öğrencinin var olması garip değil — sadece dağılımın uç noktasında.

Önemli not: Bir outlier mutlaka anomali değildir. Sağlıklı çok-değişkenli bir popülasyonda uç gözlemler olağandır.

Pratikte ne yapılır?

İstatistiksel testlerle tespit (z-score, IQR, Grubbs, ESD)
Bazen veri temizliği için silinir, bazen değerli sinyal olarak korunur
Compliance verisi için "outlier silmek" sıklıkla yasak (BDDK, FDA)

Dört Kavramı Yan Yana Koyalım#

Kavram	Kavramsal kategori	Mekanizma değişimi var mı?	Tipik üreten	Pratikte ne yapılır
Noise	Ölçüm kusuru	Hayır	Sensör hassasiyeti, kuantizasyon	Filtrele, görmezden gel
Outlier	İstatistiksel uç	Belki	Doğal popülasyon ucu	Test et, koru veya temizle
Anomaly	Süreç değişimi	Evet	Bot, fraud, arıza	Yakala ve alarm üret
Novelty	Yeni kategori	Evet ama "iyi" olabilir	Yeni davranış, yeni ürün	Sınıflandır (zararlı mı, faydalı mı)

Production'da en sık çekilen acı: "Anomali modelim çok false positive üretiyor" → çoğunlukla mesele noise filtrelenmemiş ya da outlier'lar mekanizma değişimi varsayılarak yanlış sınıflandırılmış. Önce noise temizliği, sonra mekanizma sezgisi.

💎 Production Pearl

Bir AD ekibine girince ilk hafta sor: 'Bu modelin tespit ettiği şey gerçekten anomali mi, yoksa outlier mı, yoksa noise mı?' — bu üç cevap birbiriyle karışıyorsa, ekipte temel kavram netliği yok. Bu, çoğu fraud team'inin gizli problemi.

Üç Sektör, Üç Olay — Aynı Veri, Farklı Etiket#

Aynı bir gözlemin farklı bağlamlarda outlier, anomaly veya noise olabileceğini göstermek için üç senaryo:

Olay: Müşteri A, hesabından 12.000 TL'lik bir EFT yapıyor.

Müşteri profili 1: Aylık 800-1.500 TL EFT yapan emekli birey. → 12.000 TL outlier. Ama tek başına anomali değil. Bağlam (alıcı kim, saat kaç) ile birlikte değerlendirilir. Eğer alıcı tanıdık (oğlu/kızı, kira), zaman olağan saat (gündüz) → outlier, anomali değil. Eğer alıcı yeni kayıt, gece 03:00, ve müşteri 70 yaşında → anomali (sosyal mühendislik fraud şüphesi).

Müşteri profili 2: Aylık 100.000+ TL gelir gören küçük işletme. → 12.000 TL ne outlier ne anomali — sadece günlük operasyon.

Müşteri profili 3: Hesabı 3 gün önce açılmış, ilk işlemi. → Anomali (bağımsız olarak). Açılır açılmaz büyük EFT yeni hesap-çıkış pattern'i; mule account şüphesi.

Bağlam (Context) Opsiyonel Değil#

Yukarıdaki üç senaryo aynı noktayı vurguluyor: aynı sayısal değer farklı bağlamda farklı etiket alır.

Bu, anomaly detection'ın bağlam-bağımlı bir disiplin olmasının nedenidir. Saf istatistiksel uzaklık (z-score, IQR) çoğunlukla yetmez. Ek özellikler (zaman, müşteri profili, sensor durumu, tarihsel desen) modele beslenmedikçe, model "outlier'ı anomali olarak ödüllendirir" hatasına düşer.

Bu yüzden Modül 1.2'de üç anomali tipini ayıracağız: point, contextual, collective. Bağlam farkı tam orada netleşecek.

Production'da Bu Farklar Neden Para Eder?#

Şimdi pratik tarafa geçelim. Anomali ≠ outlier ≠ noise ayrımı nasıl maliyetten tasarruf yaratır?

Senaryo: Bir Türk Bankası Fraud Ekibi#

Bir bankada Q1 2024'te şu istatistik vardı:

Günlük 2.1 milyon işlem
Günlük 8.400 alarm üretiyor (alarm rate %0.4)
Bu alarmların %82'si false positive
Her false positive'a analist 4 dakika harcıyor (manual review)
Günlük analist maliyeti = 8.400 × 0.82 × 4 dk = 460 analist-saat / gün

Q2'de model takımı kavramsal disiplini sıkılaştırdı:

Noise filtreleme öne çekildi: zorlu retry sistemleri, ölçüm artefactları işaretlendi ve modele girmedi
Outlier ≠ anomali ayrımı pekiştirildi: tek başına büyük tutar artık doğrudan alarm üretmiyor; bağlam (müşteri profili, saat, alıcı) eklendi
Novelty detection ayrı bir katman olarak eklendi: yeni MCC, yeni merchant ID artık ayrı bir signal

Q3 sonuçları:

Alarm rate %0.4 → %0.18 düştü (yarıya yakın azalma)
False positive oranı %82 → %58'e düştü
Recall (gerçek fraud yakalama) %83 → %88'e yükseldi
Aylık analist maliyetinden ~1.8M TL tasarruf

Bu rakamlar gerçek olmasa da, sektörel raporlar bu büyüklük sırasıyla uyumludur. Kavramları doğru kullanmak hem alarm yorgunluğunu azaltır hem gerçek fraud yakalama oranını yükseltir.

Hawkins'in Tanımına Modern Revizyonlar (2015-2024)#

Hawkins'in 1980 tanımı klasik ama anomaly detection literatürü onu üç açıdan genişletti:

Revizyon 1: Bağlamsallık (Chandola et al., 2009)#

Aynı gözlem bir bağlamda anomali, başka bir bağlamda normaldir. Bu, contextual anomaly kavramının doğuşu (Modül 1.2'de detaylı).

Revizyon 2: Toplu Anomaliler (Chandola et al., 2009)#

Tek gözlem normal olabilir ama bir dizi gözlem birlikte anomali olabilir. Örn. her bir paket normal ama 10.000 paketin tamamı aynı kaynak IP'den 5 saniyede gelmesi.

Revizyon 3: Adversarial Anomali (Wang et al., 2018, devam eden literatür)#

Fraud, network attack, deepfake gibi alanlarda anomali üreten bir aktör vardır. Bu aktör modelinizi öğreniyor ve onu atlatmaya çalışıyor. Hawkins'in "farklı mekanizma" tanımı artık statik değil, rakip bir mekanizmadan geçiyor. Bu, modern fraud ML'in başlıca derdi.

Bu kursta üç revizyonun da farkındalıkla ilerleyeceğiz. Özellikle Modül 3 (imbalanced data) ve Modül 19 (financial fraud) adversarial konuya derinden gider.

🤔 Kendine sor

Kafan karıştığında bir gözlemin önüne şu üç soruyu koy: (1) İstatistiksel olarak dağılımın dışında mı? → varsa outlier. (2) Farklı bir mekanizmadan mı doğdu? → varsa anomaly. (3) Eğitim setinde olmayan bir yeni kategori mi? → varsa novelty. Üçü de hayırsa, muhtemelen noise.

Bu Dersi Hangi Modüllerde Kullanacağız?#

Modül 2 (İstatistiksel Temeller): Outlier tespiti — z-score, MAD, Grubbs, EVT
Modül 3 (Veri Hazırlığı): Noise filtreleme stratejileri
Modül 4 (Değerlendirme): False positive ekonomisi — alarm yorgunluğu hesabı
Modül 11 (GAN-based): Novelty detection için AnoGAN, GANomaly
Modül 19 (Fraud): Adversarial anomali, bağlam-bağımlı kararlar
Modül 28 (Causal AD): Mekanizma değişimini nedensel olarak kanıtlama

Kavramsal disiplin, modüllerin omurgasıdır. Bir gözlemin önüne geldiğinde hangi kategorye düştüğünü tartabilmeli, çözüm yöntemini ona göre seçmelisin.

👉 Bir sonraki ders

Ders 1.2 — Üç Anomali Tipi: Point, Contextual, Collective. Anomalileri tipolojiye sokuyoruz. Her tip için 6 gerçek dünya örneği, hangi yöntem hangi tipte çalışır tablosu ve görsel sezgisel anlatım.

Frequently Asked Questions

Bu kursta üç kelimeyi ayırarak kullanacağız: outlier (istatistiksel uç), anomaly (mekanizma değişimi), novelty (yeni kategori). Akademide bu üç kelime sıklıkla 'outlier detection' başlığı altında toplanır — sen okurken bağlamdan ayırt etmen gerekecek. Pratik kural: paper'da 'outlier' geçiyorsa, anlamı dağılım dışındaki uç noktalar; eğer 'fraud', 'attack', 'failure' bağlamında geçiyorsa, gerçekten 'anomaly' kastediliyor.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...