Skip to content

Anomaly, Outlier, Novelty, Noise: Precise Differences Between Four Frequently Confused Concepts

Precise distinctions between anomaly, outlier, novelty, and noise — terms often used interchangeably in academia and industry; Hawkins's definition; why these distinctions are critical in production.

Şükrü Yusuf KAYA
30 min read
Beginner
Anomali, Outlier, Novelty, Noise: Birbirine Karıştırılan Dört Kavramın Hassas Farkları
🧠 Hassas tanımlar, hassas mühendislik
Bu disiplinde dört kelime sürekli birbirinin yerine kullanılır: anomali, outlier, novelty, noise. Görüşmelerde, paper'larda, hatta resmi compliance belgelerinde bile karıştırılır. Bu derste her birinin net tanımını koyacağız ve aralarındaki farkı production'da neden önemli olduğunu göstereceğiz. Bittiğinde 'bu bir outlier mi, anomali mi?' sorusuna kesin cevap verebilir hâle geleceksin.

Hawkins 1980: Modern Tanımın Anası#

Anomaly detection literatürünün büyük çoğunluğu Douglas Hawkins'in 1980'de yayımlanan Identification of Outliers kitabındaki tanımdan beslenir:
Definition
Hawkins, 1980 — Outlier
"An observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism." Türkçesi: "Diğer gözlemlerden o kadar farklı bir gözlem ki, farklı bir mekanizma tarafından üretildiği şüphesini doğurur."
Bu cümlenin altı çizilmesi gereken üç parçası var:
  1. "Diğer gözlemlerden farklı" — bir gözlemin anomali olabilmesi için bir referans dağılımın olması şart. Tek bir gözlem anomali olamaz.
  2. "O kadar farklı ki" — bu kelime istatistiksel anlamlılık kapısını açar. Ne kadar uzaklaşırsa şüphe doğar? Modülün ileriki derslerinde z-score, MAD, Grubbs test, EVT'ye geleceğiz.
  3. "Farklı bir mekanizma tarafından üretildi" — bu en kritik kısım. Anomali sadece uzak olmak değil, farklı bir süreç tarafından üretilmiş olmaktır. Bir karttan yapılan 50.000 TL'lik harcama uzak bir gözlem olabilir; ama eğer bu kart sahibi her ay 80.000 TL harcayan biriyse, uzak değil normal demektir. Mekanizma değişimi yok.
Hawkins'in tanımı 45 yıl önceki olsa da bugün hâlâ akademik fiziksel anchor noktasıdır. Modern anomaly detection bütün dallarının kökü bu cümleye uzanır.
🎯 Mekanizma kelimesi her şeyi değiştirir
Anomali = farklı mekanizma. Bu, ML mühendisi olarak senin asıl arayışın uzaklık değil mekanizma değişikliği. Bir transaction'ın anomali olup olmadığını sormak yerine 'bu işlemin altındaki süreç olağan tüketim mekanizması mı, yoksa farklı bir mekanizmadan mı (örn. bot, çalıntı kart, fraud halkası) doğdu?' diye sormalısın.

Dört Kavram, Dört Farklı Olay#

Şimdi dört kelimeyi tek tek ayıralım. Her birini bir cümlede tanımlayacağım, sonra bir örnekle yerleştireceğim, sonra yan yana koyup farkları netleştireceğim.
Tanım: Bir veri dağılımının tipik aralığının dışında kalan gözlem.
Karakteristik: İstatistiksel bir kavram. Dağılım tanımladığın andan itibaren outlier'ın matematiksel olarak tanımlanabilir.
Örnek: Bir okulda öğrencilerin boy ortalaması 165 cm, standart sapması 10 cm. 195 cm boyundaki bir öğrenci outlier'dır (3 standart sapma uzağında). Ama bu öğrencinin var olması garip değil — sadece dağılımın uç noktasında.
Önemli not: Bir outlier mutlaka anomali değildir. Sağlıklı çok-değişkenli bir popülasyonda uç gözlemler olağandır.
Pratikte ne yapılır?
  • İstatistiksel testlerle tespit (z-score, IQR, Grubbs, ESD)
  • Bazen veri temizliği için silinir, bazen değerli sinyal olarak korunur
  • Compliance verisi için "outlier silmek" sıklıkla yasak (BDDK, FDA)

Dört Kavramı Yan Yana Koyalım#

KavramKavramsal kategoriMekanizma değişimi var mı?Tipik üretenPratikte ne yapılır
NoiseÖlçüm kusuruHayırSensör hassasiyeti, kuantizasyonFiltrele, görmezden gel
Outlierİstatistiksel uçBelkiDoğal popülasyon ucuTest et, koru veya temizle
AnomalySüreç değişimiEvetBot, fraud, arızaYakala ve alarm üret
NoveltyYeni kategoriEvet ama "iyi" olabilirYeni davranış, yeni ürünSınıflandır (zararlı mı, faydalı mı)
Production'da en sık çekilen acı: "Anomali modelim çok false positive üretiyor" → çoğunlukla mesele noise filtrelenmemiş ya da outlier'lar mekanizma değişimi varsayılarak yanlış sınıflandırılmış. Önce noise temizliği, sonra mekanizma sezgisi.
💎 Production Pearl
Bir AD ekibine girince ilk hafta sor: 'Bu modelin tespit ettiği şey gerçekten anomali mi, yoksa outlier mı, yoksa noise mı?' — bu üç cevap birbiriyle karışıyorsa, ekipte temel kavram netliği yok. Bu, çoğu fraud team'inin gizli problemi.

Üç Sektör, Üç Olay — Aynı Veri, Farklı Etiket#

Aynı bir gözlemin farklı bağlamlarda outlier, anomaly veya noise olabileceğini göstermek için üç senaryo:
Olay: Müşteri A, hesabından 12.000 TL'lik bir EFT yapıyor.
Müşteri profili 1: Aylık 800-1.500 TL EFT yapan emekli birey. → 12.000 TL outlier. Ama tek başına anomali değil. Bağlam (alıcı kim, saat kaç) ile birlikte değerlendirilir. Eğer alıcı tanıdık (oğlu/kızı, kira), zaman olağan saat (gündüz) → outlier, anomali değil. Eğer alıcı yeni kayıt, gece 03:00, ve müşteri 70 yaşında → anomali (sosyal mühendislik fraud şüphesi).
Müşteri profili 2: Aylık 100.000+ TL gelir gören küçük işletme. → 12.000 TL ne outlier ne anomali — sadece günlük operasyon.
Müşteri profili 3: Hesabı 3 gün önce açılmış, ilk işlemi. → Anomali (bağımsız olarak). Açılır açılmaz büyük EFT yeni hesap-çıkış pattern'i; mule account şüphesi.

Bağlam (Context) Opsiyonel Değil#

Yukarıdaki üç senaryo aynı noktayı vurguluyor: aynı sayısal değer farklı bağlamda farklı etiket alır.
Bu, anomaly detection'ın bağlam-bağımlı bir disiplin olmasının nedenidir. Saf istatistiksel uzaklık (z-score, IQR) çoğunlukla yetmez. Ek özellikler (zaman, müşteri profili, sensor durumu, tarihsel desen) modele beslenmedikçe, model "outlier'ı anomali olarak ödüllendirir" hatasına düşer.
Bu yüzden Modül 1.2'de üç anomali tipini ayıracağız: point, contextual, collective. Bağlam farkı tam orada netleşecek.

Production'da Bu Farklar Neden Para Eder?#

Şimdi pratik tarafa geçelim. Anomali ≠ outlier ≠ noise ayrımı nasıl maliyetten tasarruf yaratır?

Senaryo: Bir Türk Bankası Fraud Ekibi#

Bir bankada Q1 2024'te şu istatistik vardı:
  • Günlük 2.1 milyon işlem
  • Günlük 8.400 alarm üretiyor (alarm rate %0.4)
  • Bu alarmların %82'si false positive
  • Her false positive'a analist 4 dakika harcıyor (manual review)
  • Günlük analist maliyeti = 8.400 × 0.82 × 4 dk = 460 analist-saat / gün
Q2'de model takımı kavramsal disiplini sıkılaştırdı:
  • Noise filtreleme öne çekildi: zorlu retry sistemleri, ölçüm artefactları işaretlendi ve modele girmedi
  • Outlier ≠ anomali ayrımı pekiştirildi: tek başına büyük tutar artık doğrudan alarm üretmiyor; bağlam (müşteri profili, saat, alıcı) eklendi
  • Novelty detection ayrı bir katman olarak eklendi: yeni MCC, yeni merchant ID artık ayrı bir signal
Q3 sonuçları:
  • Alarm rate %0.4 → %0.18 düştü (yarıya yakın azalma)
  • False positive oranı %82 → %58'e düştü
  • Recall (gerçek fraud yakalama) %83 → %88'e yükseldi
  • Aylık analist maliyetinden ~1.8M TL tasarruf
Bu rakamlar gerçek olmasa da, sektörel raporlar bu büyüklük sırasıyla uyumludur. Kavramları doğru kullanmak hem alarm yorgunluğunu azaltır hem gerçek fraud yakalama oranını yükseltir.

Hawkins'in Tanımına Modern Revizyonlar (2015-2024)#

Hawkins'in 1980 tanımı klasik ama anomaly detection literatürü onu üç açıdan genişletti:

Revizyon 1: Bağlamsallık (Chandola et al., 2009)#

Aynı gözlem bir bağlamda anomali, başka bir bağlamda normaldir. Bu, contextual anomaly kavramının doğuşu (Modül 1.2'de detaylı).

Revizyon 2: Toplu Anomaliler (Chandola et al., 2009)#

Tek gözlem normal olabilir ama bir dizi gözlem birlikte anomali olabilir. Örn. her bir paket normal ama 10.000 paketin tamamı aynı kaynak IP'den 5 saniyede gelmesi.

Revizyon 3: Adversarial Anomali (Wang et al., 2018, devam eden literatür)#

Fraud, network attack, deepfake gibi alanlarda anomali üreten bir aktör vardır. Bu aktör modelinizi öğreniyor ve onu atlatmaya çalışıyor. Hawkins'in "farklı mekanizma" tanımı artık statik değil, rakip bir mekanizmadan geçiyor. Bu, modern fraud ML'in başlıca derdi.
Bu kursta üç revizyonun da farkındalıkla ilerleyeceğiz. Özellikle Modül 3 (imbalanced data) ve Modül 19 (financial fraud) adversarial konuya derinden gider.
🤔 Kendine sor
Kafan karıştığında bir gözlemin önüne şu üç soruyu koy: (1) İstatistiksel olarak dağılımın dışında mı? → varsa outlier. (2) Farklı bir mekanizmadan mı doğdu? → varsa anomaly. (3) Eğitim setinde olmayan bir yeni kategori mi? → varsa novelty. Üçü de hayırsa, muhtemelen noise.

Bu Dersi Hangi Modüllerde Kullanacağız?#

  • Modül 2 (İstatistiksel Temeller): Outlier tespiti — z-score, MAD, Grubbs, EVT
  • Modül 3 (Veri Hazırlığı): Noise filtreleme stratejileri
  • Modül 4 (Değerlendirme): False positive ekonomisi — alarm yorgunluğu hesabı
  • Modül 11 (GAN-based): Novelty detection için AnoGAN, GANomaly
  • Modül 19 (Fraud): Adversarial anomali, bağlam-bağımlı kararlar
  • Modül 28 (Causal AD): Mekanizma değişimini nedensel olarak kanıtlama
Kavramsal disiplin, modüllerin omurgasıdır. Bir gözlemin önüne geldiğinde hangi kategorye düştüğünü tartabilmeli, çözüm yöntemini ona göre seçmelisin.
👉 Bir sonraki ders
Ders 1.2 — Üç Anomali Tipi: Point, Contextual, Collective. Anomalileri tipolojiye sokuyoruz. Her tip için 6 gerçek dünya örneği, hangi yöntem hangi tipte çalışır tablosu ve görsel sezgisel anlatım.

Frequently Asked Questions

Bu kursta üç kelimeyi ayırarak kullanacağız: outlier (istatistiksel uç), anomaly (mekanizma değişimi), novelty (yeni kategori). Akademide bu üç kelime sıklıkla 'outlier detection' başlığı altında toplanır — sen okurken bağlamdan ayırt etmen gerekecek. Pratik kural: paper'da 'outlier' geçiyorsa, anlamı dağılım dışındaki uç noktalar; eğer 'fraud', 'attack', 'failure' bağlamında geçiyorsa, gerçekten 'anomaly' kastediliyor.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content