İçeriğe geç

Türkiye'deki Veri Etiketleme Ekosistemi: Vendor'lar, Freelance Pazarı, KVKK ve Türkçe Veri Kıtlığı

Türkiye'deki veri etiketleme vendor'ları, freelance pazarı, ücret bantları, KVKK'nın yarattığı yerli avantaj, Türkçe veri kıtlığı sorunu ve bunun fırsata nasıl dönüştürüleceği.

Şükrü Yusuf KAYA
28 dakikalık okuma
Başlangıç
Türkiye'deki Veri Etiketleme Ekosistemi: Vendor'lar, Freelance Pazarı, KVKK ve Türkçe Veri Kıtlığı
🇹🇷 Bu derste
Türkiye'deki veri etiketleme dünyasının tam haritasını çıkaracağız: kimler kim için ne kadara çalışıyor, KVKK neden yerli avantaj yaratıyor, Türkçe veri neden bu kadar kıt — ve sen bu pazarda nasıl konumlanabilirsin.

Türkiye'nin Garip Konumu#

Yapay zekâda Türkiye, dünyada çok özel bir konumda:
  • GDPR yokuş yokuş üstüne: AB ülkeleri KVKK-eşdeğer yasalarla boğuşurken bizde KVKK 2016'dan beri yerleşti.
  • İngilizce bir dünyada Türkçe ada: Common Crawl'da Türkçe veri tüm web'in ~%1'i. GPT-4 Türkçeyi geçer geçer, ama Türkiye-spesifik bilgilerde tökezler.
  • Yetenek havuzu büyük, ekosistem küçük: İstanbul Bilgi, Boğaziçi, ODTÜ, İTÜ'den yılda binlerce CS mezunu çıkıyor. Ama "veri etiketleme" alanında profesyonel olarak çalışan tahminen 1.500-2.500 kişi var (Mayıs 2026).
  • İş gücü ucuz, kalite yüksek: Crowdsource'ta saatlik $15-30 verirsen yerli annotator'lar küresel ortalamanın çok üstünde performans veriyor. Bu, vendor'lar için altın madeni.
Bu özelliklerin hepsi fırsat. Hadi tek tek bakalım.

Yerli Veri Etiketleme Vendor'ları (2026)#

Türkiye'de "veri etiketleme" alanında profesyonel hizmet veren şirketler şu kategorilere ayrılır:

Kategori 1: Annotation-First Companies (Saf veri etiketleme şirketleri)#

ŞirketKonumOdakTipik Müşteri
CO-ONE (BTK destekli)Ankara/İstanbulGenel; otonom araç, finans, perakendeTürk OEM, bankalar
Veri Etiketleme A.Ş.İstanbulNLP, görüntüYerli + AB müşteriler
AnnoteonİstanbulGörüntü, videoE-ticaret, lojistik
TagitİzmirGenelStartup'lar
Bu şirketler crowd'a benzer iş modeliyle çalışır: müşteri proje verir, onlar kendi annotator havuzunu yönetir. Genelde $0.05-$3 / örnek arası fiyat verirler.

Kategori 2: AI Consultancy + Data Operations#

ŞirketHizmetÖlçek
VngrsNLP danışmanlığı + Türkçe dataset üretimiMid-size
Cosmos AILLM-as-a-service + data prepMid-size
Carbon Consulting / ForteStratejik AI danışmanlık, data ops dahilEnterprise
Bunlar genelde "veri etiketleme" işini kendi proje yönetimleri içinde sunarlar — saf annotation vendor'ı değil ama veri operasyonu yapabilirler.

Kategori 3: In-House Data Operations (Büyük şirketlerin kendi ekipleri)#

ŞirketEkip TahminiOdak
Trendyol AI30-50+ annotator + ops + engE-ticaret katalog, kullanıcı niyet, sohbet bot
Getir AI15-30Sipariş NLP, sürücü-müşteri eşleştirme
Hepsiburada AI20-40Ürün entity, görüntü search
KoçDigital / KoçDigital AI20-30Endüstriyel, finansal NLP
Turkcell AI15-25Call-center NLP, network anomaly
Yapı Kredi / Garanti AI10-20Fraud, dokuman, müşteri intent
BTK / Cumhurbaşkanlığı Dijital Dönüşüm Ofisi50+ (kamu projeleri)Türkçe LLM, kamu hizmetleri
Bu ekipler kendi annotator'larını işe alır, kendi tool'larını seçer (genelde Label Studio veya CVAT). En yüksek maaşlar burada.
Önemli: Bu liste açık kaynak araştırma + topluluk gözlemine dayalıdır. Eksik kalan vendor varsa lütfen bana yaz (iletişim formu üzerinden) — kursu güncel tutarız.

Freelance / Bağımsız Çalışma Pazarı#

Türkiye'de bağımsız annotator olmak isteyenler için pazar:

Yerli platformlar#

  • Bionluk: Saatlik 40-100 ₺ aralığı. Düşük kalite proje çoğunluğu.
  • Üretkenüs: Niş — daha çok dijital tasarım.
  • Armut.com: Genel hizmet platformu, annotation nadiren.

Küresel crowdsource platformları (Türkiye'den erişilebilir)#

  • Toloka (Yandex): TR localization var. Saat başına $2-10 (görev kalitesine göre).
  • Clickworker (Almanya): Türkçe görevler kısıtlı. $3-15/saat.
  • Prolific: Akademik araştırma odaklı. Yüksek kalite ama nadiren büyük annotation projeleri.
  • Amazon Mechanical Turk: Türkiye'den çalışmak bürokratik ($ alımı zor). Tavsiye edilmez.

Vendor freelance programları#

  • Scale AI Remotasks: $3-25/saat. Türkiye'de aktif binlerce annotator.
  • Surge AI: Premium. $10-40/saat. Davet gerekiyor.
  • Appen Connect: $3-15/saat, geniş proje yelpazesi.

Doğrudan iş ilanları (en yüksek kazanç)#

  • Upwork: "Data annotation freelancer" araması → Türkiye'den $20-80/saat.
  • Toptal: Premium freelance. $60-150/saat. Sınav var.
  • LinkedIn ProFinder: Yerli + remote teklifleri.
💰 Freelance ücret bantları (Mayıs 2026, Türkiye)
Acemi annotator (görev tipini yeni öğreniyor): 40-80 ₺/saat (yerli), $3-8/saat (küresel).\n\nOrta seviye (1+ yıl deneyim, vendor pool): 100-200 ₺/saat, $10-25/saat.\n\nUzman annotator (medikal, hukuki, programlama): 250-500 ₺/saat, $30-80/saat.\n\nAnnotation Engineer freelance/contract: 600-1.500 ₺/saat, $50-130/saat.\n\nÜst banda ulaşmak için: (1) İngilizce profesyonel, (2) GitHub portföy, (3) Bu kursun Capstone'ları, (4) Domain uzmanlığı.

KVKK'nın Yerli Avantajı#

Şimdi ekosistemin en stratejik noktasına geldik. KVKK (Kişisel Verilerin Korunması Kanunu — 6698 sayılı, 2016) Türkiye'nin AB ile uyumlu veri koruma çerçevesi.

Neden bu bir avantaj?#

Bir Alman otomotiv şirketi, otonom araç verilerini etiketletmek istiyor. Veri Almanya'da toplandı. GDPR der ki: "Bu veri AB sınırları dışına çıkamaz, veya çıkarken çok katı koruma altında olmalı."
ABD vendor (Scale AI)? GDPR uyumluluk şart, ekstra yükümlülük. Hindistan vendor (iMerit)? Daha da karmaşık veri transferi. Türkiye vendor (CO-ONE)?
  • KVKK ↔ GDPR Adequacy yok ama yakın — yine de iş yapılabilir.
  • Türkiye AB'ye coğrafi yakın → görsel veriler için "data residency" kolayca sağlanabilir.
  • Türk vendor'lar bunu pazarlama avantajı olarak kullanıyor: "EU-friendly, KVKK-compliant, geographically close."

Türkiye'deki şirketler için KVKK ne demek?#

  • Veri sahibinin "açık rızası" gerekiyor (m.5)
  • Veri minimizasyonu (m.4) — gerektiğinden fazla veri toplama
  • "Veri sahibinin hakları": silme, taşıma, düzeltme (m.11)
  • Yurt dışına aktarımda izin (m.9)
  • Annotation pipeline'da bunlar şu anlama geliyor:
    • PII'lar (kişisel veri) annotation öncesi temizlenmeli (Modül 29'da işleyeceğiz)
    • Annotator'ların gizlilik sözleşmesi imzalaması gerek
    • Veri sahibi "verimi silin" derse, annotation veri setinden de çıkmalı (kolay değil!)
    • Audit log şart — kim ne zaman ne etiketledi
KVKK uyumlu annotation pipeline'ı — basit görünen pipeline aslında karmaşık.
Toplama → Anonimleştirme → Etiketleme → Eğitim → Saklama. Her adımda uyumluluk soruları.

Türkçe Veri Kıtlığı: Sorun mu, Fırsat mı?#

Türkçe, dünyanın 15. en çok konuşulan dili (~88 milyon konuşan). Ama internet'teki web verilerinde Türkçe'nin payı:
Veri SetiTürkçe Oranı
Common Crawl~%1.1
OSCAR (multilingual web)~%1.4
Wikipedia (boyut)~%1.6 (~590K madde)
FineWeb-2 (Hugging Face)~%1.2
HuggingFace datasets (NLP)~%2
Open-source benchmark'lar (Türkçe)<%0.5

Bu ne demek?#

GPT-4 ve diğer kapalı modeller Türkçe'yi "öğrenebilmek" için %1 veriyle çalışmak zorunda kaldılar. Sonuç: Türkçe konuşan modeller İngilizce'den 2-5 puan F1 daha düşük performans veriyor (her benchmark'ta).

Açık modeller (Llama 3 70B vs.) ile Türkçe?#

  • Llama 3 70B'nin Türkçe yetkinliği orta — temel görevlerde başarılı, niş görevlerde tökezliyor.
  • Bunu çözmenin yolu Türkçe fine-tuning + RLHF.
  • Türkçe SFT dataset'i: Open-source seçenek 2026 itibariyle ~5-10 tane (Cosmos, Trendyol, KoçDigital, vd. açtı). Hâlâ az.
  • Türkçe RLHF preference: Neredeyse hiç yok. Bu, devasa bir fırsat.

Fırsatlar#

  1. Türkçe SFT setleri üretmek: Domain-spesifik (hukuk, sağlık, finans) Türkçe instruction-response setleri açık kaynak yayımlayanlar, alanın "first mover advantage"ını alıyor.
  2. Türkçe RLHF preference setleri: Tekil bir kişi/ekip bile başlangıçta 1.000-5.000 pair ile değerli bir dataset yapabilir.
  3. Türkçe NER + entity grounding: Yerli kurum/marka/kişi/coğrafya entitite tanıma. Resmî Gazete, UYAP, ekonomi haberleri gibi yerli corpus'lara dayalı.
  4. Türkçe LLM evaluation benchmark'ları: MMLU-TR, ARC-TR gibi setler var ama daha derinlik gerekli.

Bu kurs ne yapacak?#

Capstone A (Modül 34.1) — Türkçe yargı kararı NER setini sıfırdan üreteceğiz. Capstone D (Modül 34.4) — Türkçe RLHF preference dataset'i + DPO training.
Bu iki projeyi yapan biri Türkiye'deki LLM ekipleriyle Pazartesi sabahı röportajda olabilir.
🎯 Fırsat çağrısı
Türkiye'de "veri etiketleme uzmanı" denildiğinde akla gelen 10 kişi vardır. Sen, bu kursu bitirip 1-2 Türkçe açık kaynak veri seti yayımlayarak o 10 kişiden biri olabilirsin. Bu, kariyer açısından çok az ama yüksek getirili bir bahis. 6-12 ay disiplinle çalışan biri, alanda referans olabilir.

Üç Türk Vakası — Pazarın Gerçek Yüzü#

Vaka 1: Trendyol'un Ürün Katalog Annotation Operasyonu#

Trendyol her gün milyonlarca yeni ürün listing'i alıyor. Bunların kategorize edilmesi, attribute extraction'ı (renk, beden, malzeme), forbidden content tespiti otomatik olmazsa katalog gerilir.
Çözüm: 30-50 annotator + 5-8 annotation engineer + ML backend (kendi modelleri ile pre-label). Yıllık tahmini etiketleme bütçesi $2-5M.
Senin alacağın ders: Production-grade pipeline kurmanın endüstriyel ölçeği. Modül 32'de bu pattern'i kuracağız.

Vaka 2: Yapı Kredi'nin Fraud Annotation Programı#

Yapı Kredi, kart işlemlerinde fraud tespiti için sürekli yeni "fraud pattern" örneği etiketletiyor. Etiketleme uzman analist (eski risk yönetim) tarafından yapılıyor — saatlik 800-1.500 ₺ ücretli. Hassas veri olduğu için ekip içinde, on-premise Label Studio.
Senin alacağın ders: Yüksek değerli, düşük hacimli, uzman annotation'ın ekonomisi. Sadece 100 örnek bile kritik olabilir.

Vaka 3: Bir Yerli LLM Ekibi (anonim)#

Türkçe LLM eğitmek için kuruldu (2024). 3 kişilik RLHF data ekibi. Ayda 5.000 instruction-response pair, 2.000 preference pair üretiyor. Vendor: Yarısı yerli freelance, yarısı in-house. Bütçe: aylık $30-60K.
Senin alacağın ders: Modern LLM RLHF operasyonunun gerçek görünümü. Modül 22-23'te bu pipeline'ı kuracağız.

Sen Bu Ekosistemde Nasıl Konumlanırsın?#

Üç ana strateji:

Strateji A — "Yerli Annotation Engineer"#

  • Hedef şirketler: Trendyol, Getir, Hepsiburada, KoçDigital, Turkcell, Yapı Kredi AI
  • Yol: Bu kursu bitir + 1 capstone (Türkçe odaklı) açık kaynak yayımla + LinkedIn'de paylaş + iş başvurusu.
  • Süre: 3-6 ay.
  • Beklenen kazanç: 130-220K ₺/ay.

Strateji B — "Remote LabelOps Engineer"#

  • Hedef şirketler: AB/ABD startup'ları, frontier labs
  • Yol: Strateji A + İngilizce CV + Toptal/Upwork başvuru + 1-2 remote contract referans.
  • Süre: 6-12 ay.
  • Beklenen kazanç: $70-130K/yıl (Türkiye maaşının ~3 katı, KDV avantajıyla daha fazla).

Strateji C — "Türkçe Veri Etiketleme Danışmanı"#

  • Hedef müşteriler: Yeni kurulan Türkçe LLM ekipleri, kamu projeleri, Avrupa şirketlerinin Türkiye operasyonları
  • Yol: Strateji A + 2-3 açık kaynak Türkçe dataset + blog/teknik içerik + konuşmalar (yerel meetup'lar) → kişisel marka → danışmanlık fiyatı pazarı belirler.
  • Süre: 12-18 ay.
  • Beklenen kazanç: Saatlik 1.500-3.500 ₺ (Türkiye), ya da $150-300/saat (uluslararası).
Hangisini seçeceğin sana bağlı. Risk profili: A < B < C. Getiri tavanı: A < B < C.
Türkiye veri etiketleme ekosisteminin üç tabakası: in-house, vendor, freelance.
Her tabakanın kendi pazarı, ücreti, kariyer hattı var.

Türkiye'ye Özel Yaygın Hatalar#

❌ "Sadece yerli işle yetinelim"#

Türkiye pazarı büyük ama remote'a açılmak 3x maaş demek. Açılmazsan başka birisi senin yerini alır.

❌ "KVKK avantajını anlatmıyorum, müşteri zaten biliyor"#

Müşterinin %70'i bilmez. Sen anlat. "Türkiye'de yapıyoruz, KVKK uyumlu, AB'ye yakın, dil eşitliği yok" — bu cümle satışın yarısı.

❌ "Türkçe veri yetersiz, hiçbir şey yapamam"#

Tam tersi — Türkçe veri yetersiz, demek ki üretmen LAZIM. Boşluk = fırsat.

❌ "Yerli vendor yetersiz, bizimkinden iyi"#

Bu yanlış. CO-ONE gibi bazı yerli vendor'lar küresel standartların üstünde. Önyargı bırakıp gerçek RFP yap.

❌ "Resmî kurumlar bürokratik, onlarla çalışmam"#

2026'da Cumhurbaşkanlığı Dijital Dönüşüm Ofisi + BTK'nın Türkçe LLM projeleri ciddi bütçeli. Bürokrasiye sabırlı olursan kâr büyük.
🎬 Sıradaki Ders
0.4 (ATÖLYE) — Geliştirme Ortamı Kurulumu: Python 3.12, uv, Docker, PostgreSQL, Label Studio'yu yerel makinende production-grade kuracağız. Sonraki tüm dersler bu ortam üzerinde çalışacak.

Sık Sorulan Sorular

İki kategori: (1) Saf annotation vendor'lar — CO-ONE (BTK destekli), Veri Etiketleme A.Ş., Annoteon, Tagit. (2) In-house ekipleri olan büyük şirketler — Trendyol, Getir, Hepsiburada, KoçDigital, Turkcell, Yapı Kredi, Garanti, BTK/Cumhurbaşkanlığı Dijital Dönüşüm Ofisi.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular