Türkiye'deki Veri Etiketleme Ekosistemi: Vendor'lar, Freelance Pazarı, KVKK ve Türkçe Veri Kıtlığı
Türkiye'deki veri etiketleme vendor'ları, freelance pazarı, ücret bantları, KVKK'nın yarattığı yerli avantaj, Türkçe veri kıtlığı sorunu ve bunun fırsata nasıl dönüştürüleceği.
Şükrü Yusuf KAYA
28 dakikalık okuma
Başlangıç🇹🇷 Bu derste
Türkiye'deki veri etiketleme dünyasının tam haritasını çıkaracağız: kimler kim için ne kadara çalışıyor, KVKK neden yerli avantaj yaratıyor, Türkçe veri neden bu kadar kıt — ve sen bu pazarda nasıl konumlanabilirsin.
Türkiye'nin Garip Konumu#
Yapay zekâda Türkiye, dünyada çok özel bir konumda:
- GDPR yokuş yokuş üstüne: AB ülkeleri KVKK-eşdeğer yasalarla boğuşurken bizde KVKK 2016'dan beri yerleşti.
- İngilizce bir dünyada Türkçe ada: Common Crawl'da Türkçe veri tüm web'in ~%1'i. GPT-4 Türkçeyi geçer geçer, ama Türkiye-spesifik bilgilerde tökezler.
- Yetenek havuzu büyük, ekosistem küçük: İstanbul Bilgi, Boğaziçi, ODTÜ, İTÜ'den yılda binlerce CS mezunu çıkıyor. Ama "veri etiketleme" alanında profesyonel olarak çalışan tahminen 1.500-2.500 kişi var (Mayıs 2026).
- İş gücü ucuz, kalite yüksek: Crowdsource'ta saatlik $15-30 verirsen yerli annotator'lar küresel ortalamanın çok üstünde performans veriyor. Bu, vendor'lar için altın madeni.
Bu özelliklerin hepsi fırsat. Hadi tek tek bakalım.
Yerli Veri Etiketleme Vendor'ları (2026)#
Türkiye'de "veri etiketleme" alanında profesyonel hizmet veren şirketler şu kategorilere ayrılır:
Kategori 1: Annotation-First Companies (Saf veri etiketleme şirketleri)#
| Şirket | Konum | Odak | Tipik Müşteri |
|---|---|---|---|
| CO-ONE (BTK destekli) | Ankara/İstanbul | Genel; otonom araç, finans, perakende | Türk OEM, bankalar |
| Veri Etiketleme A.Ş. | İstanbul | NLP, görüntü | Yerli + AB müşteriler |
| Annoteon | İstanbul | Görüntü, video | E-ticaret, lojistik |
| Tagit | İzmir | Genel | Startup'lar |
Bu şirketler crowd'a benzer iş modeliyle çalışır: müşteri proje verir, onlar kendi annotator havuzunu yönetir. Genelde $0.05-$3 / örnek arası fiyat verirler.
Kategori 2: AI Consultancy + Data Operations#
| Şirket | Hizmet | Ölçek |
|---|---|---|
| Vngrs | NLP danışmanlığı + Türkçe dataset üretimi | Mid-size |
| Cosmos AI | LLM-as-a-service + data prep | Mid-size |
| Carbon Consulting / Forte | Stratejik AI danışmanlık, data ops dahil | Enterprise |
Bunlar genelde "veri etiketleme" işini kendi proje yönetimleri içinde sunarlar — saf annotation vendor'ı değil ama veri operasyonu yapabilirler.
Kategori 3: In-House Data Operations (Büyük şirketlerin kendi ekipleri)#
| Şirket | Ekip Tahmini | Odak |
|---|---|---|
| Trendyol AI | 30-50+ annotator + ops + eng | E-ticaret katalog, kullanıcı niyet, sohbet bot |
| Getir AI | 15-30 | Sipariş NLP, sürücü-müşteri eşleştirme |
| Hepsiburada AI | 20-40 | Ürün entity, görüntü search |
| KoçDigital / KoçDigital AI | 20-30 | Endüstriyel, finansal NLP |
| Turkcell AI | 15-25 | Call-center NLP, network anomaly |
| Yapı Kredi / Garanti AI | 10-20 | Fraud, dokuman, müşteri intent |
| BTK / Cumhurbaşkanlığı Dijital Dönüşüm Ofisi | 50+ (kamu projeleri) | Türkçe LLM, kamu hizmetleri |
Bu ekipler kendi annotator'larını işe alır, kendi tool'larını seçer (genelde Label Studio veya CVAT). En yüksek maaşlar burada.
Önemli: Bu liste açık kaynak araştırma + topluluk gözlemine dayalıdır. Eksik kalan vendor varsa lütfen bana yaz (iletişim formu üzerinden) — kursu güncel tutarız.
Freelance / Bağımsız Çalışma Pazarı#
Türkiye'de bağımsız annotator olmak isteyenler için pazar:
Yerli platformlar#
- Bionluk: Saatlik 40-100 ₺ aralığı. Düşük kalite proje çoğunluğu.
- Üretkenüs: Niş — daha çok dijital tasarım.
- Armut.com: Genel hizmet platformu, annotation nadiren.
Küresel crowdsource platformları (Türkiye'den erişilebilir)#
- Toloka (Yandex): TR localization var. Saat başına $2-10 (görev kalitesine göre).
- Clickworker (Almanya): Türkçe görevler kısıtlı. $3-15/saat.
- Prolific: Akademik araştırma odaklı. Yüksek kalite ama nadiren büyük annotation projeleri.
- Amazon Mechanical Turk: Türkiye'den çalışmak bürokratik ($ alımı zor). Tavsiye edilmez.
Vendor freelance programları#
- Scale AI Remotasks: $3-25/saat. Türkiye'de aktif binlerce annotator.
- Surge AI: Premium. $10-40/saat. Davet gerekiyor.
- Appen Connect: $3-15/saat, geniş proje yelpazesi.
Doğrudan iş ilanları (en yüksek kazanç)#
- Upwork: "Data annotation freelancer" araması → Türkiye'den $20-80/saat.
- Toptal: Premium freelance. $60-150/saat. Sınav var.
- LinkedIn ProFinder: Yerli + remote teklifleri.
💰 Freelance ücret bantları (Mayıs 2026, Türkiye)
Acemi annotator (görev tipini yeni öğreniyor): 40-80 ₺/saat (yerli), $3-8/saat (küresel).\n\nOrta seviye (1+ yıl deneyim, vendor pool): 100-200 ₺/saat, $10-25/saat.\n\nUzman annotator (medikal, hukuki, programlama): 250-500 ₺/saat, $30-80/saat.\n\nAnnotation Engineer freelance/contract: 600-1.500 ₺/saat, $50-130/saat.\n\nÜst banda ulaşmak için: (1) İngilizce profesyonel, (2) GitHub portföy, (3) Bu kursun Capstone'ları, (4) Domain uzmanlığı.
KVKK'nın Yerli Avantajı#
Şimdi ekosistemin en stratejik noktasına geldik. KVKK (Kişisel Verilerin Korunması Kanunu — 6698 sayılı, 2016) Türkiye'nin AB ile uyumlu veri koruma çerçevesi.
Neden bu bir avantaj?#
Bir Alman otomotiv şirketi, otonom araç verilerini etiketletmek istiyor. Veri Almanya'da toplandı. GDPR der ki: "Bu veri AB sınırları dışına çıkamaz, veya çıkarken çok katı koruma altında olmalı."
ABD vendor (Scale AI)? GDPR uyumluluk şart, ekstra yükümlülük.
Hindistan vendor (iMerit)? Daha da karmaşık veri transferi.
Türkiye vendor (CO-ONE)?
- KVKK ↔ GDPR Adequacy yok ama yakın — yine de iş yapılabilir.
- Türkiye AB'ye coğrafi yakın → görsel veriler için "data residency" kolayca sağlanabilir.
- Türk vendor'lar bunu pazarlama avantajı olarak kullanıyor: "EU-friendly, KVKK-compliant, geographically close."
Türkiye'deki şirketler için KVKK ne demek?#
- Veri sahibinin "açık rızası" gerekiyor (m.5)
- Veri minimizasyonu (m.4) — gerektiğinden fazla veri toplama
- "Veri sahibinin hakları": silme, taşıma, düzeltme (m.11)
- Yurt dışına aktarımda izin (m.9)
- Annotation pipeline'da bunlar şu anlama geliyor:
- PII'lar (kişisel veri) annotation öncesi temizlenmeli (Modül 29'da işleyeceğiz)
- Annotator'ların gizlilik sözleşmesi imzalaması gerek
- Veri sahibi "verimi silin" derse, annotation veri setinden de çıkmalı (kolay değil!)
- Audit log şart — kim ne zaman ne etiketledi
Türkçe Veri Kıtlığı: Sorun mu, Fırsat mı?#
Türkçe, dünyanın 15. en çok konuşulan dili (~88 milyon konuşan). Ama internet'teki web verilerinde Türkçe'nin payı:
| Veri Seti | Türkçe Oranı |
|---|---|
| Common Crawl | ~%1.1 |
| OSCAR (multilingual web) | ~%1.4 |
| Wikipedia (boyut) | ~%1.6 (~590K madde) |
| FineWeb-2 (Hugging Face) | ~%1.2 |
| HuggingFace datasets (NLP) | ~%2 |
| Open-source benchmark'lar (Türkçe) | <%0.5 |
Bu ne demek?#
GPT-4 ve diğer kapalı modeller Türkçe'yi "öğrenebilmek" için %1 veriyle çalışmak zorunda kaldılar. Sonuç: Türkçe konuşan modeller İngilizce'den 2-5 puan F1 daha düşük performans veriyor (her benchmark'ta).
Açık modeller (Llama 3 70B vs.) ile Türkçe?#
- Llama 3 70B'nin Türkçe yetkinliği orta — temel görevlerde başarılı, niş görevlerde tökezliyor.
- Bunu çözmenin yolu Türkçe fine-tuning + RLHF.
- Türkçe SFT dataset'i: Open-source seçenek 2026 itibariyle ~5-10 tane (Cosmos, Trendyol, KoçDigital, vd. açtı). Hâlâ az.
- Türkçe RLHF preference: Neredeyse hiç yok. Bu, devasa bir fırsat.
Fırsatlar#
- Türkçe SFT setleri üretmek: Domain-spesifik (hukuk, sağlık, finans) Türkçe instruction-response setleri açık kaynak yayımlayanlar, alanın "first mover advantage"ını alıyor.
- Türkçe RLHF preference setleri: Tekil bir kişi/ekip bile başlangıçta 1.000-5.000 pair ile değerli bir dataset yapabilir.
- Türkçe NER + entity grounding: Yerli kurum/marka/kişi/coğrafya entitite tanıma. Resmî Gazete, UYAP, ekonomi haberleri gibi yerli corpus'lara dayalı.
- Türkçe LLM evaluation benchmark'ları: MMLU-TR, ARC-TR gibi setler var ama daha derinlik gerekli.
Bu kurs ne yapacak?#
Capstone A (Modül 34.1) — Türkçe yargı kararı NER setini sıfırdan üreteceğiz.
Capstone D (Modül 34.4) — Türkçe RLHF preference dataset'i + DPO training.
Bu iki projeyi yapan biri Türkiye'deki LLM ekipleriyle Pazartesi sabahı röportajda olabilir.
🎯 Fırsat çağrısı
Türkiye'de "veri etiketleme uzmanı" denildiğinde akla gelen 10 kişi vardır. Sen, bu kursu bitirip 1-2 Türkçe açık kaynak veri seti yayımlayarak o 10 kişiden biri olabilirsin. Bu, kariyer açısından çok az ama yüksek getirili bir bahis. 6-12 ay disiplinle çalışan biri, alanda referans olabilir.
Üç Türk Vakası — Pazarın Gerçek Yüzü#
Vaka 1: Trendyol'un Ürün Katalog Annotation Operasyonu#
Trendyol her gün milyonlarca yeni ürün listing'i alıyor. Bunların kategorize edilmesi, attribute extraction'ı (renk, beden, malzeme), forbidden content tespiti otomatik olmazsa katalog gerilir.
Çözüm: 30-50 annotator + 5-8 annotation engineer + ML backend (kendi modelleri ile pre-label). Yıllık tahmini etiketleme bütçesi $2-5M.
Senin alacağın ders: Production-grade pipeline kurmanın endüstriyel ölçeği. Modül 32'de bu pattern'i kuracağız.
Vaka 2: Yapı Kredi'nin Fraud Annotation Programı#
Yapı Kredi, kart işlemlerinde fraud tespiti için sürekli yeni "fraud pattern" örneği etiketletiyor. Etiketleme uzman analist (eski risk yönetim) tarafından yapılıyor — saatlik 800-1.500 ₺ ücretli. Hassas veri olduğu için ekip içinde, on-premise Label Studio.
Senin alacağın ders: Yüksek değerli, düşük hacimli, uzman annotation'ın ekonomisi. Sadece 100 örnek bile kritik olabilir.
Vaka 3: Bir Yerli LLM Ekibi (anonim)#
Türkçe LLM eğitmek için kuruldu (2024). 3 kişilik RLHF data ekibi. Ayda 5.000 instruction-response pair, 2.000 preference pair üretiyor. Vendor: Yarısı yerli freelance, yarısı in-house. Bütçe: aylık $30-60K.
Senin alacağın ders: Modern LLM RLHF operasyonunun gerçek görünümü. Modül 22-23'te bu pipeline'ı kuracağız.
Sen Bu Ekosistemde Nasıl Konumlanırsın?#
Üç ana strateji:
Strateji A — "Yerli Annotation Engineer"#
- Hedef şirketler: Trendyol, Getir, Hepsiburada, KoçDigital, Turkcell, Yapı Kredi AI
- Yol: Bu kursu bitir + 1 capstone (Türkçe odaklı) açık kaynak yayımla + LinkedIn'de paylaş + iş başvurusu.
- Süre: 3-6 ay.
- Beklenen kazanç: 130-220K ₺/ay.
Strateji B — "Remote LabelOps Engineer"#
- Hedef şirketler: AB/ABD startup'ları, frontier labs
- Yol: Strateji A + İngilizce CV + Toptal/Upwork başvuru + 1-2 remote contract referans.
- Süre: 6-12 ay.
- Beklenen kazanç: $70-130K/yıl (Türkiye maaşının ~3 katı, KDV avantajıyla daha fazla).
Strateji C — "Türkçe Veri Etiketleme Danışmanı"#
- Hedef müşteriler: Yeni kurulan Türkçe LLM ekipleri, kamu projeleri, Avrupa şirketlerinin Türkiye operasyonları
- Yol: Strateji A + 2-3 açık kaynak Türkçe dataset + blog/teknik içerik + konuşmalar (yerel meetup'lar) → kişisel marka → danışmanlık fiyatı pazarı belirler.
- Süre: 12-18 ay.
- Beklenen kazanç: Saatlik 1.500-3.500 ₺ (Türkiye), ya da $150-300/saat (uluslararası).
Hangisini seçeceğin sana bağlı. Risk profili: A < B < C. Getiri tavanı: A < B < C.
Türkiye'ye Özel Yaygın Hatalar#
❌ "Sadece yerli işle yetinelim"#
Türkiye pazarı büyük ama remote'a açılmak 3x maaş demek. Açılmazsan başka birisi senin yerini alır.
❌ "KVKK avantajını anlatmıyorum, müşteri zaten biliyor"#
Müşterinin %70'i bilmez. Sen anlat. "Türkiye'de yapıyoruz, KVKK uyumlu, AB'ye yakın, dil eşitliği yok" — bu cümle satışın yarısı.
❌ "Türkçe veri yetersiz, hiçbir şey yapamam"#
Tam tersi — Türkçe veri yetersiz, demek ki üretmen LAZIM. Boşluk = fırsat.
❌ "Yerli vendor yetersiz, bizimkinden iyi"#
Bu yanlış. CO-ONE gibi bazı yerli vendor'lar küresel standartların üstünde. Önyargı bırakıp gerçek RFP yap.
❌ "Resmî kurumlar bürokratik, onlarla çalışmam"#
2026'da Cumhurbaşkanlığı Dijital Dönüşüm Ofisi + BTK'nın Türkçe LLM projeleri ciddi bütçeli. Bürokrasiye sabırlı olursan kâr büyük.
🎬 Sıradaki Ders
0.4 (ATÖLYE) — Geliştirme Ortamı Kurulumu: Python 3.12, uv, Docker, PostgreSQL, Label Studio'yu yerel makinende production-grade kuracağız. Sonraki tüm dersler bu ortam üzerinde çalışacak.
Sık Sorulan Sorular
İki kategori: (1) Saf annotation vendor'lar — CO-ONE (BTK destekli), Veri Etiketleme A.Ş., Annoteon, Tagit. (2) In-house ekipleri olan büyük şirketler — Trendyol, Getir, Hepsiburada, KoçDigital, Turkcell, Yapı Kredi, Garanti, BTK/Cumhurbaşkanlığı Dijital Dönüşüm Ofisi.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Giriş & Çerçeve
Veri-Merkezli AI Manifestosu: Neden Modelden Çok Veriye Yatırım Yapmalısın?
Öğrenmeye BaşlaModül 0: Giriş & Çerçeve
Etiketleme Mühendisinin Kariyer Haritası: Annotator'dan Head of Data Operations'a
Öğrenmeye BaşlaModül 0: Giriş & Çerçeve
[ATÖLYE] Geliştirme Ortamı Kurulumu: Python, Docker, PostgreSQL ve Label Studio'yu Sıfırdan Kuralım
Öğrenmeye BaşlaBağlantılı Pillar Konular