Skip to content

The Data-Centric AI Manifesto: Why You Should Invest in Data More Than Models

Andrew Ng's 80/20 rule, why data quality matters more than model size in the modern LLM era, data strategies of Tesla/OpenAI/Meta, and why data labeling is an engineering discipline.

Şükrü Yusuf KAYA
25 min read
Beginner
Veri-Merkezli AI Manifestosu: Neden Modelden Çok Veriye Yatırım Yapmalısın?
👋 Veri Etiketleme & Kalite Yönetimi kursuna hoş geldin
Bu, Türkçe dilinde hazırlanan en kapsamlı veri etiketleme & kalite yönetimi müfredatının ilk dersi. 22 modül, ~95 ders, 4 capstone projesi ve onlarca kod laboratuvarı boyunca seninle yürüyeceğim. Tamamı ücretsiz. Tek beklentim: notebook'unu aç, kod yaz, sorular sor, paylaş. Yolculuğa başlamadan önce — niye bu konu, niye şimdi, niye bu kadar önemli — netleştirelim.

Sahne: 2021, Mart ayı. Andrew Ng konuşmaya çıkıyor.#

Stanford profesörü, Google Brain'in kurucusu, Coursera'nın ortak kurucusu, milyonlarca öğrencinin makine öğrenmesi hocası Andrew Ng, "MLOps: From Model-Centric to Data-Centric AI" başlıklı bir oturuma çıkıyor. Sahnede tek bir slide var:
"Data is food for AI. 80% of an AI project is preparing data. The remaining 20% is collecting data."
(Veri AI'ın gıdasıdır. Bir AI projesinin %80'i veri hazırlamaktır. Geri kalan %20'si veri toplamaktır.)
Salon gülüyor. Çünkü espriden çok bir gerçek. O zamana kadar her ML konferansında konuşulan şey mimariydi: "ResNet-50 mi, EfficientNet mi? Adam mı, SGD mi? Dropout 0.2 mi, 0.5 mi?" Sanki dünyanın en iyi modelini kurarsan veri bir şekilde yetişirdi.
Andrew Ng o gün şunu söyledi:
"Çoğu pratisyen zamanının %99'unu modeli iyileştirmeye, %1'ini veriyi iyileştirmeye harcıyor. Halbuki çoğu sorun veride. Modelin yerine duran kod sabit, değişen veri — ML mühendisliğinin bir sonraki paradigması bu olacak."
Bu cümle bir manifestoya dönüştü. Adı: Data-Centric AI — Veri-Merkezli AI.
Bu kurs, o manifestonun pratisyen el kitabıdır.
Andrew Ng'in 2021 Data-Centric AI konuşması — paradigma değişiminin başlangıcı.
Andrew Ng (2021): "Model fixed, data improved" — veriyi iyileştirmek, modeli iyileştirmekten 10 kat daha etkili.

İki Paradigma: Model-Merkezli vs Veri-Merkezli#

Andrew Ng'in slide'larında, herkesin hâlâ konuştuğu o ünlü ikili karşılaştırma var. İzin ver, ben de Türkçe net bir dille koyalım:
BoyutModel-Merkezli (2012-2020)Veri-Merkezli (2021-…)
Sabit kalanVeri seti (örn. ImageNet 1.28M sabit)Model mimarisi (örn. ResNet-50 sabit)
DeğişenMimari, hiperparametre, lossVeri kalitesi, etiket tutarlılığı, kapsam
Tipik soru"Acaba ViT, CNN'i geçer mi?""Yanlış etiketli %5'i temizlersem accuracy ne olur?"
Tipik araçPyTorch, TensorFlow, wandbLabel Studio, cleanlab, Snorkel, Argilla
Tipik metrikF1, AUC, val lossIAA, label noise %, coverage, slice perf
Tipik ekipML Engineer + ML ResearcherData Ops + Annotation Lead + ML Engineer
YatırımGPU, computeİnsan saati, tooling, schema dokümantasyonu
Hata kökeniOverfitting, underfittingYanlış etiket, schema belirsizliği, ek sınıf
Önemli not: Bunlar rakip değil, tamamlayıcı. Çağdaş bir pratisyen ikisini de bilir. Ama Ng'in vurgusu şu: çoğu pratisyen birinciye %95, ikinciye %5 yatırım yapıyor. Halbuki sorun çoğu zaman veride.
💡 Andrew Ng'in "100 ML Project" deneyi
Landing AI'da Ng ekibi 100'den fazla endüstriyel görüntü işleme projesini analiz etti. Ortalama veri seti boyutu: 100-10.000 örnek (çoğu fabrikanın elinde milyon yok). Modeli iyileştirmek %1-3 kazanç verirken, veriyi temizlemek/tutarlılığını artırmak %10-50 kazanç verdi. Düşük-veri rejiminde veri merkezli yaklaşım model merkezliden 10x üstün. LLM çağında bu hâlâ geçerli — sadece ölçek değişti.

Vaka 1: Çelik Levha Hata Tespiti — Hikâyenin Aslı#

Andrew Ng'in en sevdiği örneklerden biri: bir çelik fabrikası, levha yüzeyindeki çatlakları otomatik tespit etmek istiyor. Etiketli veri seti: 5.000 görüntü. Model: tıkır tıkır çalışıyor, F1: 0.78. Müşterinin beklentisi: en az 0.90.
Ekip ne yapar? Klasik model-merkezli yaklaşım:
  • ResNet-50'den EfficientNet-B7'e geçer → F1: 0.78
  • Data augmentation ekler → F1: 0.79
  • Focal loss dener → F1: 0.80
  • Ensemble yapar → F1: 0.81
Sonra biri veriye bakar:
  • Etiketleyici 1 "5cm'den uzun çatlağı pozitif say" demiş
  • Etiketleyici 2 "her gözle görünür çatlağı pozitif say" demiş
  • Etiketleyici 3 ışık parlaması olan yerleri çatlak sanmış
  • Aynı görüntüler farklı etiketleyiciler tarafından farklı etiketlenmiş — IAA (Inter-Annotator Agreement) Cohen κ = 0.41 (zayıf!)
Çözüm: Yeni kılavuz, kalibrasyon oturumu, çatlak tanımının netleştirilmesi, tartışmalı 500 örneğin yeniden etiketlenmesi. Aynı model, aynı kod, sadece veri temiz: F1 = 0.93.
Andrew Ng'in dersi: Bazen "daha güçlü model" değil, "daha tutarlı kılavuz" lazım.
Çelik levha hata tespiti — etiketleyici tutarsızlığı modeli yere serer.
Aynı çatlak, üç farklı etiket. Bu, model değil **schema** problemidir.

LLM Çağında Veri-Merkezli AI Hâlâ Geçerli mi? Kesinlikle, EVET — DAHA DA Kritik.#

"Tamam, ama bu küçük veri rejimi içindi. Şimdi GPT-4 var, milyarlarca token var, model her şeyi öğrenir" diye düşünebilirsin. Yanılıyorsun. Modern LLM araştırmasının son 3 yılda yayımladığı her büyük makale aynı sonuca varıyor:
"Daha büyük model değil, daha iyi veri kazandırıyor."
Üç örnek:

1) Chinchilla Yasası (DeepMind, 2022)#

DeepMind, GPT-3 boyutundaki Gopher modelini eğitti (280B parametre). Sonra şunu fark etti: aynı bütçeyle daha küçük bir modeli daha çok veriyle eğitince, büyük model dövüldü. Chinchilla 70B, Gopher 280B'yi her benchmark'ta geçti. Sebep? Daha fazla — ve daha kaliteli — token gördü. Bu, Andrew Ng'in mesajının LLM çağına tercümesidir.

2) Llama 3 (Meta, 2024)#

Llama 2 → Llama 3 sıçraması, mimarinin değil verinin sıçramasıdır. Meta ekibi şöyle yazdı:
"Llama 3'ün her komponentinde en büyük kazanç veri kalitesinden geldi. Pre-training'de aggressive filtering, deduplication, kalite skoru. Post-training'de SFT için 10M+, preference için milyonlarca yüksek kalite örnek."
Mimari değişimi minör. Veri stratejisi devrimsel.

3) Phi-3 (Microsoft, 2024)#

Microsoft, sadece 3.8B parametrelik bir modelle Llama 3 70B'yi (akıl yürütmede) yakaladı. Nasıl? "Textbook-quality" sentetik + filtrelenmiş veri. Adı "Textbooks Are All You Need" — model boyutu değil, veri kalitesi belirleyici.
Sonuç: Veri-merkezli paradigma 2021'de bir hipotez, 2026'da bir aksiyon. Her ciddi AI ekibinin kalbi orada.
🎯 Paradigmanın özü
Eskiden "daha büyük modelle daha akıllı yapay zeka" diyorduk. Bugün "daha temiz, daha çeşitli, daha iyi etiketli veriyle daha akıllı yapay zeka" diyoruz. Compute ucuzladı, mimariler standartlaştı, model ağırlıkları açıldı. Geriye kalan rekabet avantajı tek bir yerde: verin ve nasıl ürettin.

Pratisyenler Zamanını Nereye Harcıyor?#

Cognilytica ve Anaconda gibi araştırma kuruluşları yıllardır şu tabloyu yayımlıyor — ML pratisyenlerinin gerçek zaman dağılımı:
FaaliyetTipik zaman payıEski algıGerçek
Veri toplama%20"Hızlı, kolay"Şirketin en politik kısmı
Veri temizleme & etiketleme%45-60"Sıkıcı yardımcı iş"İşin en kritik kısmı
Feature engineering%10"Magic"Gittikçe azalıyor (DL ile)
Model eğitimi%5-10"Asıl iş"Genellikle 1-2 gün, geri kalan hep veri
Hyperparameter tuning%5"Bilim"Çoğu zaman marjinal
Deployment & monitoring%10"DevOps işi"LLM çağında giderek büyüyor
Dokümantasyon%5"Kim yapacak..."Aslında veriyi anlamak için zorunlu
Andrew Ng'in 80/20'si: Veri toplama + temizleme + etiketleme = işin ~%80'i.
Bu kursun mesajı: Madem işin %80'ini bu kapsıyor, bu konuya zerre kadar yatırım yapmamak mantıksız. Üstelik bu beceri çok az insanda var — yani rekabet avantajıdır.
Bir ML pratisyeninin tipik gün dağılımı — modelin payı düşündüğünden az.
Anaconda 2023 State of Data Science raporu — pratisyenler gerçekte zamanlarını veri etrafında harcıyor.

Veri Etiketleme Neden Bir Mühendislik Disiplinidir?#

Bazıları der ki: "Etiketleme manuel iş, mühendislik değil." Bu yanlış. Bak neden:

Bir mühendislik disiplinini ne tanımlar?#

  1. Ölçülebilir kalite metrikleri — Veri etiketleme: IAA (κ, α), label noise rate, coverage
  2. Tekrarlanabilir süreçler — Schema, kılavuz, kalibrasyon protokolü, audit log
  3. Araç-zincirleri — Label Studio, CVAT, Argilla, cleanlab, DVC, Snorkel
  4. Optimizasyon problemleri — $/etiket, hız/kalite trade-off, active learning seçimi
  5. Hata modeli — Label noise tipolojisi, slice-level error analysis
  6. Profesyonel standartlar — Datasheets, Data Cards, KVKK/GDPR audit
  7. Akademik çekirdek — IAA istatistiği, weak supervision teorisi, AL theory
Bir köprü mühendisinin "yük dağılımı, malzeme yorulması, sismik analiz" disiplini varsa, veri etiketleme mühendisinin de "schema tutarlılığı, annotator confusion matrix, label noise model" disiplini vardır. Aynı düzeyde matematiksel ve titiz.
Bu kursun lojistiği: 22 modül boyunca bu disiplini sıfırdan kuracağız — kavram → matematik → tool → vaka.
Veri etiketleme bir istatistik disiplinidir: Cohen's κ, Fleiss' κ, Krippendorff's α, Dawid-Skene EM algoritması, Bayesian annotator modelleri, bootstrap güven aralıkları. Bu kursun Part IV'ünde detaylı işlenecek.

Vaka 2: Tesla'nın "Data Engine"i — Devreye Alınmış Veri-Merkezli AI#

Tesla'nın Autopilot ekibi, dünyada veri-merkezli paradigmayı en sistematik uygulayan ekiplerden biri. Andrej Karpathy'nin (eski Tesla AI lideri) 2021 CVPR konuşmasında anlattığı Data Engine akışı şu:
[Filo] → [Yanlış tahminler "trigger"lar] → [Ekibe görüntü ulaşır] ↑ ↓ └────[Yeni modeli filo'ya gönder]←──[Etiketle + train et]
Detaylar:
  1. Filo trigger'ları: Milyonlarca Tesla, "modelin emin olmadığı" sahneleri flagliyor — "kar yağışı + dur tabelası", "yıkım sırası bir köprü", "yan yana iki polis arabası" gibi.
  2. Otomatik etiket (auto-label): Önce eski modeller pseudo-label çıkarıyor, sonra insan sadece düzeltiyor (sıfırdan etiketlemiyor).
  3. Active learning: Hangi sahnenin daha çok etikete ihtiyacı olduğunu uncertainty + diversity skoruyla seçiyorlar.
  4. Triage: Acil (güvenlik) vakaları öne alıyor, marjinal vakaları geç işliyor.
  5. Continuous loop: Hafta hafta yeni model dağıtılıyor, eski hatalar düzeliyor, yeni triggerlar oluşuyor.
Tesla'nın iddiası: Bu sistem onları, rakiplerden 5-10 yıl ileri taşıyor. Sebep mimari değil, veri pipeline'ı. Bu kursun Modül 20 (Active Learning) ve Modül 26 (Label Noise) bölümlerinde bu pattern'i kendi başına kurmayı öğreneceksin.
Tesla'nın Data Engine'i — veri-merkezli paradigmanın endüstriyel uygulaması.
Tesla AI Day 2021: "Build the model with the data, not just the data for the model."

Vaka 3: OpenAI InstructGPT — RLHF'in Veri Hikâyesi#

ChatGPT'nin atası InstructGPT (2022). Paper'ı okuduğunda fark edersin: mimari değişimi neredeyse sıfır. Aynı GPT-3 backbone. Asıl devrim veride:
AşamaVeri tipiBoyutEtiketleyici
Pre-trainingWeb~300B token(Otomatik)
SFT (Supervised Fine-tuning)Yüksek kaliteli prompt-response~13.00040 OpenAI etiketleyicisi
RM (Reward Model)Pairwise preference~33.00040 etiketleyici
PPO(Sentetik prompt'lar)
OpenAI'in 2022 paper'ı (Ouyang et al.) tek bir cümleyle özetlenir: 13.000 yüksek kalite örneği 40 eğitimli insandan topladık ve GPT-3'ün davranışını alt-üst ettik. GPT-3 davası kapandı, ChatGPT doğdu.
Bu ne demek? Modern AI ürünlerinin "büyüsü" mimaride değil, veri toplama protokolünde. Bu kursun Part VIII'i (SFT/RLHF/DPO) tam olarak bu sürecin nasıl yapılacağını öğretiyor — Türkçe veriyle, kendi modelin için.
🚨 Pratisyen için kritik içgörü
GPT-4 hâlâ Türkçe için zayıf yerlerde tökezliyor. Sebep modelin küçüklüğü değil — Türkçe SFT/RLHF verisinin azlığı. Sen, bu kursun sonunda kendi Türkçe SFT setini üretebilen biri olursan, Türkiye'deki her LLM ekibi seni dinlemek isteyecektir. Bu, kariyer açısından da, ülke açısından da yüksek değerli bir beceri.

Bu Kurs Sana Tam Olarak Ne Verecek?#

Bittiğinde şunları yapabiliyor olacaksın:

🧱 Temel#

  • Bir veri etiketleme projesinin schema'sını sıfırdan tasarlayabilmek
  • 25 sayfalık üretim-kalite annotation kılavuzu yazabilmek
  • Cohen κ, Fleiss κ, Krippendorff α hesaplayıp yorumlayabilmek
  • Dawid-Skene EM ile annotator kalite modelini Python'da implement edebilmek

🛠️ Tooling#

  • Label Studio'da ML backend + webhook'larla production-grade kurulum
  • CVAT'ta SAM (Segment Anything) entegrasyonu ile yarı-otomatik segmentasyon
  • Argilla 2.x ile RLHF preference dataset toplama
  • Custom React + Fabric.js annotator UI yazabilmek

🤖 Modern AI#

  • Snorkel ile weak supervision — sıfır manuel etiketle %85 F1
  • Active learning ile annotation bütçesini %60 düşürme
  • LLM-as-judge ile sentetik veri kalite filtresi
  • DPO için preference pair pipeline kurabilmek

🇹🇷 Türkiye'ye Özel#

  • KVKK uyumlu veri etiketleme pipeline'ı
  • Türkçe NER, Türkçe sentiment, Türkçe NER schemaları
  • Türkçe RLHF dataseti üretmek
  • Resmî Gazete, UYAP, e-ticaret üzerine vaka çalışmaları

🎓 Capstone'lar#

  1. Capstone A: Türkçe yargı kararı NER — schema + 500 örnek + IAA + train
  2. Capstone B: X-ray pneumonia segmentation — DICOM + multi-rater + U-Net
  3. Capstone C: E-ticaret attribute extraction — weak supervision-first
  4. Capstone D: Türkçe RLHF preference set — Argilla + DPO training
Tamamı ücretsiz. Tamamı Türkçe. Tamamı uygulamalı.

Kurs Felsefesi — Sözleşmemiz#

Bu kursta üç söz veriyorum:

1) Akıcılık üstüne titizlik#

Konu teknik. Çoğu kaynak ya çok yüzeysel (popüler blog yazıları) ya da çok soğuk (akademik paperlar). Ben ikisi arasında bir denge tutmaya çalışıyorum: matematik atlanmayacak ama anlatımı insanca olacak. Eğer bir formül senin için boşlukta kalırsa — git, Modül 7'deki türetmeyi adım adım takip et. Eğer kod sıkıcı gelirse — vaka çalışmasına atla, geri dönersin.

2) Türkçeyi merkeze koyma#

Veri etiketleme literatüründe Türkçe örnek bulmak zor. Bu kursta her vaka çalışmasında Türkçe örnek üretmek hedefimiz. İngilizce literatürü atıfla sunarım, ama egzersizler Türkçe.

3) Hiçbir kapı kapalı değil#

Hiç kod yazmamış birisin, ama ML projesinin veri tarafına bakmak istiyorsun — Modül 0-1-2 senin. Yıllarca scikit-learn ile uğraştın, modern LLM data pipeline'ına geçmek istiyorsun — Part VIII'e atla, Capstone D'yi yap. İçerik bir spektrum, ihtiyacın olan parçayı al.
Yine de, sıralı gitmeyi öneririm. Çünkü Modül 7'deki Cohen κ'yı bilmiyorsan, Modül 26'daki Dawid-Skene'i anlayamazsın.
🤝 Karşılıklı söz
Ben her dersi, sen 100 lira ödüyormuşsun gibi yazıyorum. Sen de her dersi, 100 lira ödemişsin gibi okumalısın. Tek farkımız: bana 100 lira gerek yok. Senin bu konuyu ciddiye alman, ailene, ekibine, takipçilerine doğru bilgi taşıman bana yeter. "Veri etiketleme önemli bir mühendislik disiplini" cümlesi Türkçeye yerleşirse, ben de yerimi bulurum.

Sıradaki Ders#

Şimdi felsefemiz net. Bir sonraki derste tam olarak şu soruyu cevaplayacağız:
"Bir veri etiketleme mühendisi günde ne yapar? Kariyer nereye gider?"
Çünkü kariyer haritası belli olmadan, motivasyon hep yarım kalır. Ders 0.2'de görüşürüz.

Frequently Asked Questions

2021'de Andrew Ng tarafından popülerleştirilen paradigma. Modeli sabit tutup veriyi sistematik olarak iyileştirmek; etiket kalitesi, schema tasarımı, kapsam ve tutarlılığa odaklanmak. Düşük-veri rejiminde model-merkezli yaklaşımdan 10x'e kadar daha etkili olabiliyor; LLM çağında da Llama 3, Phi-3 gibi örneklerle önemini koruyor.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content