Veri Etiketleme & Kalite Yönetimi
Andrew Ng'in 80/20 kuralı, modern LLM çağında veri kalitesinin model boyutundan daha kritik olmasının nedenleri, Tesla/OpenAI/Meta'nın veri stratejileri ve neden veri etiketleme bir mühendislik disiplinidir.
İçindekiler
Modül 0: Giriş & Çerçeve
- 1
Veri-Merkezli AI Manifestosu: Neden Modelden Çok Veriye Yatırım Yapmalısın?
Andrew Ng'in 80/20 kuralı, modern LLM çağında veri kalitesinin model boyutundan daha kritik olmasının nedenleri, Tesla/OpenAI/Meta'nın veri stratejileri ve neden veri etiketleme bir mühendislik disiplinidir.
- 2
Etiketleme Mühendisinin Kariyer Haritası: Annotator'dan Head of Data Operations'a
Veri etiketleme alanındaki kariyer seviyeleri, günlük iş akışı, yetkinlik matrisi, küresel ve Türkiye maaş aralıkları, kariyer pivotları ve hangi yetenekleri hangi sırayla geliştirmen gerektiği.
- 3
Türkiye'deki Veri Etiketleme Ekosistemi: Vendor'lar, Freelance Pazarı, KVKK ve Türkçe Veri Kıtlığı
Türkiye'deki veri etiketleme vendor'ları, freelance pazarı, ücret bantları, KVKK'nın yarattığı yerli avantaj, Türkçe veri kıtlığı sorunu ve bunun fırsata nasıl dönüştürüleceği.
- 4
[ATÖLYE] Geliştirme Ortamı Kurulumu: Python, Docker, PostgreSQL ve Label Studio'yu Sıfırdan Kuralım
Veri etiketleme & kalite yönetimi kursunun tüm derslerinde kullanacağımız geliştirme ortamı: Python 3.12 (uv ile), Docker Compose, PostgreSQL, Label Studio ve ilk "Hello World" annotation projesi.
Modül 1: Veri Etiketlemenin Anatomisi
- 1
ML Pipeline'da Verinin Yeri: Toplama, Etiketleme, Eğitim, Değerlendirme, Üretim Döngüsü
Bir makine öğrenmesi sisteminin tam yaşam döngüsü: veri toplama → etiketleme → eğitim → değerlendirme → üretim → izleme → geri toplama. Her aşamanın veri etiketlemeyle ilişkisi, geri bildirim döngüsü, sürekli iyileştirme ve neden "data flywheel" modern AI'ın ana rekabet avantajıdır.
- 2
Etiketleme Türlerinin Tam Taksonomisi: Classification'dan Preference'a 14 Format
Veri etiketlemenin 14 ana format çeşidi: tekli sınıflandırma, çoklu etiket, sıralı (ordinal), NER, span, BBox, polygon, segmentation, keypoint, ranking, preference, free-form, structured ve hibrit. Her format için kullanım alanları, tooling, tipik metrikler ve hatalar.
- 3
Supervised, Semi-supervised, Self-supervised: Etiketleme İhtiyacı Paradigmalara Göre Nasıl Değişir?
Modern AI'ın beş büyük öğrenme paradigması — supervised, semi-supervised, self-supervised, weakly supervised, ve few-shot/in-context — her birinin veri etiketleme ihtiyacı, maliyet profili ve nerede kullanılması gerektiği.
- 4
[VAKA] Aynı Veriyi 3 Farklı Schema ile Etiketle: Binary, Multi-class, Hierarchical Karşılaştırma
Aynı 1.000 Türkçe yorum dataseti üzerinde üç farklı schema (binary positive/negative, 5-class fine-grained, hierarchical) ile etiketleme yap, model eğit ve performans+maliyet+kullanışlılık karşılaştırması yap. Bu, schema kararının pratik etkisini gösteren tam bir vaka çalışmasıdır.
- 5
Ground Truth İllüzyonu: "Doğru Etiket" Diye Bir Şey Gerçekten Var mı?
Veri etiketlemenin felsefi temeli: ground truth gerçekte var mı, annotator subjectivity neden kaçınılmaz, "doğru cevap" varsayımının modern AI'da yarattığı sorunlar ve disagreement'i sinyal olarak görmenin yeni paradigması.