Skip to content

Who Is a Data Engineer in the AI Era? 30-Year Evolution from DBA to AI Data Engineer

How did data engineering evolve from 1995 to 2026? Differences between DBA, ETL Developer, Data Engineer, Analytics Engineer and AI Data Engineer; skill matrix; Turkey & global salary ranges; daily workflow.

Şükrü Yusuf KAYA
35 min read
Beginner
AI Çağında Veri Mühendisi Kimdir? DBA'dan AI Data Engineer'a 30 Yıllık Evrim
👋 AI için Veri Mühendisliği kursuna hoş geldin
Bu Türkçe yazılmış en kapsamlı veri mühendisliği müfredatının ilk dersi. 11 part, 34 modül, ~150 ders ve 3 capstone proje boyunca seninle yürüyeceğim. Tek hedef var: kursun sonunda, hangi şirkette olursan ol — bir RAG ürününden bir LLM pretrain pipeline'ına kadar — üretim seviyesi AI veri altyapısı kurabilir hale gelmiş olacaksın. Tamamen ücretsiz, tamamen Türkçe.

Önce bir hikâye#

2023 baharıydı. Bir İstanbul fintech'inde mimari toplantısındaydım. Şirket "müşterimize bir AI asistan koyalım" dedi — büyük heyecan. Bir hafta sonra prototip hazırdı: ChatGPT API'ye SSS sorusu, cevap dön. Çalışıyordu. Demo başarılıydı.
Sonra production'a aldılar.
İlk hafta sonu, asistan birkaç müşteriye fiyat listesinde bulunmayan kampanyalardan bahsetti. Pazartesi sabahı bir hesabın IBAN'ını başkasına söyledi (loglardan görüldüğü için fark edildi — gerçek bir veri sızıntısı değildi, ama mühendislik tarafı dehşete kapıldı). Salı günü cevaplar saatte bir değişiyordu çünkü kimse "knowledge base'i güncel tutma" işini sahiplenmemişti. Çarşamba günü yöneticisi "biz neden öyle bir şey yaptık?" diyordu.
Sorun modelde değildi. Sorun verideydi.
  • Doküman okuma pipeline'ı yoktu (PDF'leri biri manuel kopyalamıştı).
  • Versiyonlama yoktu (eski kampanya dosyası index'te kalmıştı).
  • Test set decontamination yoktu (eval sorularının cevapları training korpusunda vardı).
  • Lineage yoktu (hangi cevap hangi dokümandan geldi — kimse söyleyemiyordu).
  • PII filtresi yoktu (IBAN'lar, telefon numaraları o aksiyon-loglarına serbest akıyordu).
Bütün bunlar veri mühendisliği problemleridir. Ve AI'ın geldiği nokta tam olarak şu: model artık komodite, veri artık moat.
🎯 Bu kursun çekirdek tezi
AI projelerinin %80'i model değil veri problemi yüzünden başarısız oluyor. Veri mühendisliğini AI'a göre konumlayabilen mühendisler, 2026–2030 arasındaki en stratejik teknik rol haline geldi. Bu kurs seni o pozisyona taşımak için yazıldı.

Veri Mühendisi: Bir Tanım Önerisi#

Önce klasik tanım — sonra AI çağında nasıl değiştiğine bakacağız:
Definition
Veri Mühendisi
Bir organizasyonun ürettiği ham veriyi (logs, transactions, events, dokümanlar, görüntüler, sesler) toplayan, taşıyan, dönüştüren, depolayan ve hizmetlerine açan mühendis. Hem yazılım mühendisliği prensiplerini (versiyonlama, test, CI/CD, monitoring) hem de dağıtık sistem bilgisini (sharding, consistency, fault tolerance) veri akışlarına uygular.
Bu tanım 2015'ten beri büyük ölçüde geçerli. Ama 2022 sonrası iki yeni sorumluluk eklendi:
  1. Eğitim verisi mühendisliği — modelleri besleyen korpusları toplama, temizleme, dedup'lama, decontaminate etme.
  2. Çıkarım verisi mühendisliği — RAG, feature store, vector index, embedding pipeline — modelin çalışırken erişeceği veri.
Bu iki sorumluluk, klasik analytics-warehouse rolünden farklı, daha gerçek-zamanlı, daha multi-modal, daha production-critical. AI çağında veri mühendisi artık "BI dashboard'lara veri akıtan" değil, "ürünün canlı sinir sistemini ören" kişidir.

30 Yılda 6 Rol: Veri İşinin Evrimi#

Veri mühendisliği unvanı 2011'de Facebook'ta Maxime Beauchemin ("Airflow"un yaratıcısı) ekibinde resmi olarak ortaya çıktı. Ama veri ile profesyonel olarak uğraşan mühendisler 30 yıldır var. Şu evrim hattını bilinçli olarak takip etmek lazım — çünkü bugünkü iş ilanları aynı unvanı 6 farklı rol için kullanıyor, ve doğru rolde olmak kariyerini hızlandırıyor.

Tarihsel haritalama#

DönemRolÇıktıTipik Stack
1990–2005DBA (Database Administrator)İlişkisel veritabanı yönetimi, yedekleme, indexOracle, SQL Server, DB2
2000–2012ETL DeveloperKaynak → DW transform, batch raporlamaInformatica, SSIS, Talend, Teradata
2010–2017Big Data EngineerHadoop ekosistemi, MapReduce job'larıHadoop, Hive, Pig, HBase, Sqoop
2014–2020Data Engineer (modern)Distributed pipeline, streaming, cloud DWSpark, Kafka, Airflow, Snowflake/BigQuery
2019–bugünAnalytics EngineerDW içinde modelleme, dbt, semantic layerdbt, Snowflake, Looker, BigQuery
2023–bugünAI Data EngineerLLM korpusu + RAG + feature store + vector + lineage+ Iceberg, vLLM, Qdrant, Feast, OpenLineage
Dikkat: yeni rol eskiyi silmiyor, üzerine biniyor. Bugün hâlâ DBA da var, ETL geliştirici de. Ama piyasa parası ve ürünün kalbi, en sağdaki rolde.
Veri mühendisliği rollerinin 30 yıllık evrimi — DBA'dan AI Data Engineer'a.
Her dalga bir öncekini kapsar; AI Data Engineer en geniş yelpazedir.

Her bir role yakından bakalım#

Burada her rolü "ne yapardı, ne yapar, neden değişti" üzerinden anlatacağım. Sen de bugünkü iş ilanlarında bu kalıpları tanımaya başlayacaksın.
Tipik gün: Index analizi, query plan inceleme, backup verification, replication monitoring, tablespace yönetimi, schema migration onayı.
Çekirdek beceri: SQL'in iç işleyişi (B-tree, page, buffer cache, lock granularity), transaction semantics, recovery (WAL, redo log), high availability (DataGuard, Always On, streaming replication).
Neden hâlâ var? OLTP veritabanları (Postgres, MySQL, Oracle) iş dünyasının kanıdır — milyarlarca dolarlık altyapı her gün döner. Bir e-ticaret sitesinin sipariş veritabanı durduğunda DBA aranır, AI Engineer değil.
AI'a köprü: RAG'ın altında çoğunlukla Postgres + pgvector vardır. PII filtresinin source'u OLTP tablosudur. CDC pipeline'ı bir DBA'nın yapılandırdığı logical replication slot'undan başlar.

AI Data Engineer Yetkinlik Atlası#

Bir AI Data Engineer'ın bilmesi gerekenleri 8 kategoride topluyoruz. Bu atlas aynı zamanda bu kursun iskeletidir — her kategori birkaç modüle karşılık geliyor.
Konular: OLTP vs OLAP, warehouse vs lake vs lakehouse, normalleştirme, boyutsal modelleme, NoSQL aileleri, CAP teoremi pratiği.
Neden gerekli? Veri mimarisini yanlış kurarsan, hangi tool'u koyarsan koy çalışmaz. Iceberg yerine MongoDB seçtiğin senaryolar var, MongoDB yerine Postgres seçeceğin senaryolar var.
Kurs karşılığı: Part I (Modül 1–2).

T-Şeklinde AI Data Engineer#

Yukarıdaki 8 kategorinin tamamında uzman olamazsın — ve olmana gerek de yok. İdeal profil T-şeklindedir:
  • Yatay bar (genişlik): 8 kategorinin tamamında çalışan bilgi. "Kafka exactly-once'u neden zor" sorusuna sözlü olarak cevap verebilirsin, ama production Kafka cluster'ı tek başına tune etmen gerekmiyor.
  • Dikey bar (derinlik): Bir kategoride uçtan uca production. Örneğin "RAG ve doküman pipeline'ları" — 10K PDF'i kendi başına ingest edip Qdrant'a koyup OpenLineage entegrasyonuyla traceable hale getirebilirsin.
Bu kursta önce yatay barı genişleteceğiz (Part I–IV). Sonra senin seçeceğin alan(lar)da dikey bar kazıyacağız — kurs içine 3 capstone projesi yerleştirdik, üçü de farklı dikey bar inşa ediyor.
T-şekilli AI Data Engineer profili — geniş temel + bir derin uzmanlık.
Senin için doğru profil; deep area kursun ortasında netleşecek.

Bir AI Data Engineer'ın Bir Günü (Gerçekçi Örnek)#

Aşağıdaki senaryo, Türkiye'deki bir orta ölçekli yapay zekâ ürün şirketinin gerçek bir veri mühendisinin haftalık döngüsünden alıntılandı (isim/şirket gizli). Sen de işe başladığında benzer bir ritim göreceksin.

09:00–10:00 — Sabah ritüeli#

  • Slack'i aç. Gece çalışan pipeline'larda alert var mı?
  • Airflow UI'da bütün DAG'lar yeşil mi? Üç sarı var: birinde
    retry
    aldı, sonunda geçti. İkincisi data quality test'i fail etmiş — bir source tablosu beklenenden %30 az satır göndermiş. Bir Slack thread'i aç, source ekibine soru sor.
  • Langfuse dashboard'unu aç. LLM API maliyeti dün 312olmus\cortalama312 olmuş — ortalama 180. Hangi route patladı?

10:00–12:00 — Sabah focus block#

  • Yeni doküman tipi (kontrat PDF'leri) için ingestion pipeline'ı. Bugün Marker ile parser'ı bağlayacaksın. Test PDF'leri ile çalışıyorsun, sonuçları Argilla'ya atıyorsun ki domain expert yarın değerlendirsin.
  • Bir branch açıyorsun, Spark UDF yazıyorsun, lokal test, sonra dev env'a deploy.

12:00–13:00 — Öğle + ad-hoc#

  • "Geçen hafta search quality düştü mü?" — analiz ekibinden gelen Slack DM.
  • DuckDB ile Iceberg tablosuna 5 dakikalık ad-hoc query. Cevap: evet, %2 recall düşüşü, 3 günden beri. Suspect: yeni eklenen 200 doküman.
  • Issue açıyorsun, ekibe haber.

13:00–15:00 — Cross-team toplantı#

  • ML ekibiyle fine-tuning roadmap toplantısı. Onlar "5M Türkçe instruction-response pair lazım, gelecek ay" diyor.
  • Sen mevcut korpus envanterinden ne çıkarabileceğimizi gösteriyorsun. Synthetic data generation pipeline'ı için PoC kararı veriliyor.

15:00–17:00 — Öğleden sonra focus block#

  • Vector index migration: Qdrant 1.10 → 1.13. Schema değişti, downtime yok hedefi.
  • Blue-green deploy senaryosu, embedding'leri yeniden yazıyorsun (3 saat batch işlemi, GPU node'unda paralel).

17:00–18:00 — Wrap-up#

  • PR'ları review et, Linear'da ticket'ları güncelle, yarına en kritik 3 işi belirle.
  • Capacity planning notu: önümüzdeki çeyrekte storage 6TB → 18TB öngörü, infra ile bütçeyi konuş.
Notice: Bu gün hiçbir LLM eğitilmedi, hiç deep learning kodu yazılmadı. Sadece veri üzerinde çalışıldı. Ama bu işlerin doğru yapılması, modelin başarısının %80'i.
🎯 Gerçeklik kontrolü
AI Data Engineer olmak "PyTorch ile model eğitmek" değil. Sen daha çok SQL, Python, Spark, Kafka, Docker, Airflow, Iceberg, Qdrant, dbt göreceksin. Modeli çalıştıran insan sensin, eğiten değil (eğitim büyük ölçüde ML/AI engineer'a kalıyor). Ama modelin kalitesini doğrudan belirleyensin.

Türkiye ve Global Maaş Aralıkları (2026 Q2)#

Maaş verisi LinkedIn, Glassdoor, Levels.fyi, BAE/Bilgi/ITU mezun anketleri, ve doğrudan kaynaktan (Aralık 2025 – Mayıs 2026) derlendi. Brüt, USD bazında, ortanca aralık.

Türkiye (uzaktan + İstanbul/Ankara hibrit)#

SeviyeYıllık Brüt (USD)Net Aylık (TL, ~Mayıs 2026 kuru)Tipik Deneyim
Junior Data Engineer18K18K–32K~50–90K TL0–2 yıl
Mid Data Engineer32K32K–55K~90–155K TL2–4 yıl
Senior Data Engineer55K55K–85K~155–240K TL4–7 yıl
AI Data Engineer (Senior)70K70K–120K~195–340K TL4–8 yıl + AI uzmanlığı
Staff / Principal Data Eng100K100K–180K~280–500K TL8+ yıl
Remote (US/EU şirketi, Türkiye'de yaşayan)80K80K–200K$/EUR olarak3+ yıl + İngilizce

Global (sadece referans için)#

SeviyeABD Brüt (USD)Almanya Brüt (EUR)UK Brüt (GBP)
Mid Data Engineer130K130K–180K€70K–€95K£65K–£85K
Senior Data Engineer180K180K–260K€90K–€125K£85K–£115K
AI Data Engineer (Senior)220K220K–340K€110K–€155K£100K–£140K
Staff Data Engineer280K280K–450K+€140K–€200K£130K–£180K
Önemli notlar:
  1. AI Data Engineer premium'u Senior Data Engineer üzerine %20–40 civarında. Bu kursun amacı seni bu premium'u alabilecek konuma taşımak.
  2. Türkiye remote piyasası 2024–2025'te patladı — bugün İstanbul'da oturup Berlin'deki bir startup'a tam zamanlı çalışan veri mühendisi az değil. İngilizce CV ve teknik mülakat performansı belirleyici.
  3. "AI hype" bu rakamları kısa vadede şişirmiş olabilir; 5 yıllık trendi tahmin etmek zor. Ama veri rolüne ihtiyaç azalmıyor, sadece şekli değişiyor.

Komşu Roller: AI Data Engineer Kimden Farklı?#

İş ilanı taradığında karışıklık yaratan 5 yakın rol var. Bunları net ayırt etmek hem mülakatta hem kariyer planlamada işine yarar.
RolAna OdakTipik ÇıktıAI Data Engineer ile Örtüşme
ML EngineerModel eğitimi, fine-tune, servingTrained model artifact, eval raporEğitim verisini AI Data Eng hazırlar, ML Eng eğitir. Sıkı işbirliği, ortak vocabulary.
MLOps EngineerModel deployment, model monitoring, A/B test infraKubeflow operator, MLflow, feature store opsFeature store + data quality tarafı çakışıyor. Birçok şirkette tek kişi her ikisini de yapıyor.
AI Engineer / LLM EngineerAPI/agent uygulama, RAG, prompt engineeringChatbot, copilot, agentAynı domain (LLM), farklı katman (uygulama vs altyapı). Aynı şirket çalışır, alanlar birbirini besler.
Analytics Engineerdbt + semantic layer + BI hazırlığıProduction-grade dbt projectDW transform tarafı ortak, AI-spesifik şeyler (vector, RAG) ayrı.
Software Engineer (Backend)Genel ürün backend, API'ler, infraMicroservice, REST/gRPC APIVeri akışını "tüketen" taraf; AI Data Eng "üreten" tarafı.
Yaygın yanılgı 1: "Ben OpenAI API çağırıyorum, ben AI Engineer'ım." → Doğru, ama henüz AI Data Engineer değilsin. Veri tarafını sahiplenmeden bu unvanı taşımak zorlama olur.
Yaygın yanılgı 2: "Veri mühendisliği yapmak için PyTorch bilmek lazım." → Hayır, ML/DL framework derinlemesine bilmek şart değil. SQL, Python, distributed system bilgisi çok daha kritik. Bu kurs PyTorch dersi vermeyecek (zaten LLM Mühendisliği kursunda var).

Kariyer Basamakları: Junior → Staff#

Aşağıdaki ladder Google/Meta/Stripe/Anthropic gibi şirketlerin job leveling rubric'lerinden distille edildi ve Türkiye'deki ortalama orta-büyük teknoloji şirketine uyarlandı.

L1: Junior Data Engineer (0–2 yıl)#

  • Çıktı: Tek başına bir Airflow DAG yazıp deploy edebilir. Mevcut pipeline'da bug fix yapar. SQL'i akıcı yazar.
  • Bilmesi gereken: SQL, Python, Airflow temel, Spark temel, Git workflow.
  • Karar yetkisi: Yok — senior'ın onayıyla iş gider.

L2: Mid Data Engineer (2–4 yıl)#

  • Çıktı: Yeni bir pipeline'ı baştan tasarlayabilir. Performance tuning yapar. Cross-team bağımlılıkları yönetir.
  • Bilmesi gereken: + dbt, IaC (Terraform), CI/CD, basic streaming, data modeling.
  • Karar yetkisi: Modül-içi mimari kararlar (hangi tool, hangi schema).

L3: Senior Data Engineer (4–7 yıl)#

  • Çıktı: Yeni bir veri ürününü uçtan uca sahiplenir. Junior'lara mentor olur. Tech-spec yazar.
  • Bilmesi gereken: + distributed system internals, advanced streaming, cost engineering, security/compliance temel.
  • Karar yetkisi: Component bazında mimari kararlar, hiring interview yürütücüsü.

L3.5: AI Data Engineer (Senior, AI uzmanlığı) — bu kursun hedefi#

  • Çıktı: Üstüne LLM pipeline, vector infra, RAG pipeline, embedding versioning sahipliği.
  • Bilmesi gereken: + bütün AI/LLM-spesifik müfredat (bu kursun Part V–VIII'i).
  • Premium: %20–40 Senior üzerinde.

L4: Staff Data Engineer (7–12 yıl)#

  • Çıktı: Multi-team mimari kararlar. Platform vision. 10+ kişilik ekiplerin teknik liderliği. CEO/CTO seviye sunum.
  • Bilmesi gereken: Yukarıdakilerin hepsi + iş anlayışı + organizational influence.
  • Karar yetkisi: Şirket genelinde teknoloji seçimi (örn. "Snowflake mi Databricks mi").

L5: Principal / Distinguished (12+ yıl)#

  • Çıktı: Endüstri seviyesinde etki. Açık kaynak katkı, paper, konuşma. Şirket dışı vizyon.
Bu kursun rotası: Kursu bitirdiğinde, Junior'san Mid'e, Mid'sen Senior'a, Senior'san L3.5'a (AI Data Engineer) sıçramaya hazır olacaksın. Daha üst seviyeler kurs konusu değil — onlar zamanın işi.

Türkiye'ye Özel Bağlam#

Bu noktayı geçemem: Türkçe AI veri ekosisteminin bugün ihtiyacı olan iki şey var ve bu kurs onların ikisini birden hedefliyor.

1) Türkçe-optimize korpus#

Bugün popüler açık LLM'lerin (Llama 3, Qwen 3, DeepSeek-V3) Türkçe pretrain verisi çoğunlukla Common Crawl'dan otomatik geliyor — kalite filtresi İngilizce için optimize, Türkçe için yetersiz. Sonuç: Türkçe çıktılar İngilizce muadiline kıyasla %20–40 daha zayıf.
Çözüm: Türk veri mühendisleri kendi Türkçe-optimize pipeline'larını yazmak zorunda. Bu kurs Modül 12–16'da o pipeline'ı sıfırdan inşa etmeyi öğretiyor.

2) Türkçe RAG / domain-specific AI sistemleri#

Türkiye'deki şirketlerin %90'ı kendi dokümanlarını (sözleşmeler, regülasyon, ürün kataloğu) Türkçe tutuyor. İngilizce-merkezli RAG yığınları (LangChain default chunking, OpenAI embedding) Türkçe için tatmin edici sonuç vermiyor. Türkçe chunking, Türkçe embedding, Türkçe rerank — hepsi ayrı mühendislik gerektiriyor.
Çözüm: Bu kursun Part VI–VII'sinde Türkçe veriye özel RAG mühendisliği yapacağız. Türkçe sözleşme parsing, Türkçe tablo extraction, Türkçe hybrid search — uygulama bazlı.
Bu iki alan, önümüzdeki 2 yılda Türkiye'de en yüksek karşılığı olan teknik uzmanlıklar olabilir. Erken giren, çok kazanır.

Bu Kursa Başlamak için Ne Bilmen Gerekiyor?#

Aşağıdaki liste minimum. Yarısını biliyorsan başlayabilirsin, eksiklerini yolda kapatırız.
Mutlaka:
  • Python orta seviye (list comprehension, fonksiyon, sınıf, virtualenv).
  • SQL temel (SELECT, JOIN, GROUP BY, aggregate).
  • Komut satırı temel (Linux/Mac/WSL2 —
    cd
    ,
    ls
    ,
    grep
    , pipe).
  • Git temel (clone, branch, commit, push, pull request).
Yardımcı (yoksa öğretiriz):
  • Docker temel.
  • Bir cloud servisinde (AWS/GCP/Azure) hesap açmış olmak.
  • Bir veritabanı tasarlamış olmak (kişisel proje seviyesinde bile).
  • Bir veri pipeline'ı yazmış olmak (cron + script bile sayılır).
Gerekmeyen:
  • Derin ML/DL bilgisi (bu kurs ML modeli eğitmiyor, AI sistemlerini besliyor).
  • PyTorch / TensorFlow.
  • Akademik istatistik veya advanced matematik.
Donanım:
  • Laptop: 16GB RAM, 256GB SSD, herhangi bir modern CPU. GPU gerekmez (bazı opsiyonel atölyeler için Colab Free yeterli).
  • Düşük internet bandwidth de OK — dataset'leri torrent / mirror ile sunacağız.
💎 Sözüm sana
Kursu hakkını vererek bitirirsen, Türkçe konuşan en hazırlıklı AI veri mühendislerinden biri olursun. 3 capstone projesi GitHub portfolyona ekleneceği için, kursu bitirdiğin gün CV'nde göstereceğin somut işler var. Tek geri ödeme istediğim: öğrendiğin bir şeyi başka bir Türk geliştiriciye anlat. Bilgi ancak paylaşılınca kalıcı olur.

Bir sonraki ders#

Bir sonraki derste (00.2 — Bu kursta ne öğreneceksin) kursun 11 part'ı ve 34 modülünü dakika dakika dolaşacağız. 3 capstone projesinin önizlemesini yapacağız: hangi gerçek probleme çözüm getiriyor, kursun sonunda elinde ne olacak. Hazırsan devam!

Frequently Asked Questions

No. Many companies hire based on portfolio + interview. A CS/IE/Stats degree helps with initial filtering, but a strong GitHub plus open-source contributions usually compensates.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content