Veri Etiketleme & Kalite Yönetimi
Andrew Ng'in 80/20 kuralı, modern LLM çağında veri kalitesinin model boyutundan daha kritik olmasının nedenleri, Tesla/OpenAI/Meta'nın veri stratejileri ve neden veri etiketleme bir mühendislik disiplinidir.
Bu kategori nasıl yapılandırıldı?
Her öğrenme kategorisi; temel kavramlardan üretim-seviyesi mimari kararlarına kadar progresif bir modül zinciri olarak tasarlanır — atlanmasa daha hızlı ilerlersin, ama her modül kendi başına da çalışılabilir.
Modül yapısı standart: kısa video/yazılı içerik (10–15 dakika), uygulamalı örnek (kod + veri), 10–15 soruluk değerlendirme, ve gerçek dünya use-case ile bağlanma kısmı. Bu yapı 'gördüm, anladım' yanılgısının önüne geçiyor — uygulamadan sonra değerlendirme, gerçekten içselleştirip içselleştirmediğini test ediyor.
Her kategoride üretim odaklı pratik vurgusu var: prompt engineering kategorisinde sadece prompt template'leri değil, prompt versiyonlama ve A/B testing; RAG'de sadece chunk-and-embed değil, hibrit retrieval + reranker + evaluation; LLMOps'ta sadece deployment değil, gözlemlenebilirlik ve maliyet attribusyonu.
Önerilen ilerleme yolu: ilk önce kategori-içi temel modülleri sırayla çalış, sonra ileri modüllerden ihtiyacın olanı seçici tüket. Kohort formatı tercih edersen drip-yayın seninle hızını koordine ediyor; bireysel formatta ise kendi hızında ilerleyebilirsin.
- Her modül 10–15 dakika içerik + uygulamalı örnek + değerlendirme.
- Üretime alma odaklı; teorik kalmıyor, gerçek vendor/araç kararlarına bağlanıyor.
- Modüller bağımsız çalışılabilir ama önerilen sıra hızı artırır.
- Pro üyelik ile sertifika sınavı + AI tutor + drip kohort erişimi.
İçindekiler
Modül 0: Giriş & Çerçeve
- 1
Veri-Merkezli AI Manifestosu: Neden Modelden Çok Veriye Yatırım Yapmalısın?
Andrew Ng'in 80/20 kuralı, modern LLM çağında veri kalitesinin model boyutundan daha kritik olmasının nedenleri, Tesla/OpenAI/Meta'nın veri stratejileri ve neden veri etiketleme bir mühendislik disiplinidir.
- 2
Etiketleme Mühendisinin Kariyer Haritası: Annotator'dan Head of Data Operations'a
Veri etiketleme alanındaki kariyer seviyeleri, günlük iş akışı, yetkinlik matrisi, küresel ve Türkiye maaş aralıkları, kariyer pivotları ve hangi yetenekleri hangi sırayla geliştirmen gerektiği.
- 3
Türkiye'deki Veri Etiketleme Ekosistemi: Vendor'lar, Freelance Pazarı, KVKK ve Türkçe Veri Kıtlığı
Türkiye'deki veri etiketleme vendor'ları, freelance pazarı, ücret bantları, KVKK'nın yarattığı yerli avantaj, Türkçe veri kıtlığı sorunu ve bunun fırsata nasıl dönüştürüleceği.
- 4
[ATÖLYE] Geliştirme Ortamı Kurulumu: Python, Docker, PostgreSQL ve Label Studio'yu Sıfırdan Kuralım
Veri etiketleme & kalite yönetimi kursunun tüm derslerinde kullanacağımız geliştirme ortamı: Python 3.12 (uv ile), Docker Compose, PostgreSQL, Label Studio ve ilk "Hello World" annotation projesi.
Modül 1: Veri Etiketlemenin Anatomisi
- 1
ML Pipeline'da Verinin Yeri: Toplama, Etiketleme, Eğitim, Değerlendirme, Üretim Döngüsü
Bir makine öğrenmesi sisteminin tam yaşam döngüsü: veri toplama → etiketleme → eğitim → değerlendirme → üretim → izleme → geri toplama. Her aşamanın veri etiketlemeyle ilişkisi, geri bildirim döngüsü, sürekli iyileştirme ve neden "data flywheel" modern AI'ın ana rekabet avantajıdır.
- 2
Etiketleme Türlerinin Tam Taksonomisi: Classification'dan Preference'a 14 Format
Veri etiketlemenin 14 ana format çeşidi: tekli sınıflandırma, çoklu etiket, sıralı (ordinal), NER, span, BBox, polygon, segmentation, keypoint, ranking, preference, free-form, structured ve hibrit. Her format için kullanım alanları, tooling, tipik metrikler ve hatalar.
- 3
Supervised, Semi-supervised, Self-supervised: Etiketleme İhtiyacı Paradigmalara Göre Nasıl Değişir?
Modern AI'ın beş büyük öğrenme paradigması — supervised, semi-supervised, self-supervised, weakly supervised, ve few-shot/in-context — her birinin veri etiketleme ihtiyacı, maliyet profili ve nerede kullanılması gerektiği.
- 4
[VAKA] Aynı Veriyi 3 Farklı Schema ile Etiketle: Binary, Multi-class, Hierarchical Karşılaştırma
Aynı 1.000 Türkçe yorum dataseti üzerinde üç farklı schema (binary positive/negative, 5-class fine-grained, hierarchical) ile etiketleme yap, model eğit ve performans+maliyet+kullanışlılık karşılaştırması yap. Bu, schema kararının pratik etkisini gösteren tam bir vaka çalışmasıdır.
- 5
Ground Truth İllüzyonu: "Doğru Etiket" Diye Bir Şey Gerçekten Var mı?
Veri etiketlemenin felsefi temeli: ground truth gerçekte var mı, annotator subjectivity neden kaçınılmaz, "doğru cevap" varsayımının modern AI'da yarattığı sorunlar ve disagreement'i sinyal olarak görmenin yeni paradigması.
Sıkça Sorulan Sorular
- Modüller, içerik dökümünde gösterilen sırayla ilerlemen için tasarlandı. İlk modül zemin oluşturur, sonraki modüller buna dayanır. Bir bölümü atlayabilirsin ama yan-modüllerde 'Önkoşullar' bölümü görünürse önce o derslere dön.