Skip to content

Veri Temizleme Workflow'u: Eksik, Aykırı, Tip Düzeltme

Pratik 6 adımlı veri temizleme şablonu. Eksik değer, outlier, tip uyumsuzluğu, duplicate, format normalizasyonu.

Şükrü Yusuf KAYA
9 min read
Intermediate
Veri Temizleme Workflow'u: Eksik, Aykırı, Tip Düzeltme

Veri temizleme = veri analizinin %60'ı#

Klasik söz: data science'ın %80'i veri temizleme. ChatGPT bunu dramatik kısaltır.
6 adım:
  1. Profilleme — neyi temizliyoruz?
  2. Eksik değer stratejisi
  3. Tip düzeltme
  4. Outlier
  5. Duplicate
  6. Format normalizasyonu
text
Ekteki messy_data.csv dosyasını temizle.
 
Adım 1 — **Profilleme**: dosyada hangi kalite sorunları var? Tablo halinde sun.
 
Adım 2 — **Eksik değer**:
- Her sütunda eksik değer sayısı + oranı
- Strateji önerisi her sütun için (silinsin / median ile doldur / 'unknown' ata)
- Karar tablosu (sütun, strateji, gerekçe)
- Uygula
 
Adım 3 — **Tip düzeltme**:
- 'price' string olarak gelmiş ("1.299 TL"); numeric'e çevir
- 'date' farklı formatlarda ("2026-01-15", "15/01/2026"); ISO standart yap
- 'phone' formatları normalize et (+90 5XX XXX XX XX)
 
Adım 4 — **Outlier**:
- Numeric sütunlarda IQR tabanlı outlier tespiti
- Her birinin nedeni (gerçek mi, hata mı) tahmin
- Strateji: cap, sil, veya bırak
 
Adım 5 — **Duplicate**:
- Tam duplicate
- Fuzzy duplicate (örn. aynı email farklı yazılmış: " A@b.com" vs "a@b.com")
- Sil veya merge stratejisi
 
Adım 6 — **Format normalizasyonu**:
- Türkçe karakter standardizasyon
- "İstanbul", "ISTANBUL", "istanbul" → tek format
- Whitespace temizliği
 
Her adımdan sonra: "Kaç satır etkilendi" özeti.
 
Sonda: temiz CSV'yi indirilebilir hale getir, **adım adım Python kodunu** da paylaş (yorumlar Türkçe).
6 adımlı veri temizleme promptu — tek mesajda tüm akış.
💡 İdempotent temizleme
Aynı kodu birden fazla çalıştırırsan aynı sonucu vermesi şarttır. Yani 'eksik değeri median ile doldur' kodu, ikinci çalıştırmada '0 değişiklik' raporlamalı. ChatGPT'ye 'kodu idempotent yaz' demek bunu zorlar.

Özet#

✓ 6 adımlı workflow: profil → eksik → tip → outlier → duplicate → format ✓ ChatGPT tek promptla tüm zinciri yapar ✓ İdempotent kod = güvenli tekrar çalıştırma
Modül 6 tamamlandı 🎉 — Sıradaki: Modül 7 (Kod Yazımı).

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content