AI Çağında Veri Mühendisi Kimdir? DBA'dan AI Data Engineer'a 30 Yıllık Evrim
Veri mühendisliği 1995'ten 2026'ya nasıl evrimleşti? DBA, ETL Developer, Data Engineer, Analytics Engineer ve AI Data Engineer rolleri arasındaki farklar, yetkinlik matrisi, Türkiye ve global maaş aralıkları, günlük iş akışı.
Şükrü Yusuf KAYA
35 dakikalık okuma
Başlangıç👋 AI için Veri Mühendisliği kursuna hoş geldin
Bu Türkçe yazılmış en kapsamlı veri mühendisliği müfredatının ilk dersi. 11 part, 34 modül, ~150 ders ve 3 capstone proje boyunca seninle yürüyeceğim. Tek hedef var: kursun sonunda, hangi şirkette olursan ol — bir RAG ürününden bir LLM pretrain pipeline'ına kadar — üretim seviyesi AI veri altyapısı kurabilir hale gelmiş olacaksın. Tamamen ücretsiz, tamamen Türkçe.
Önce bir hikâye#
2023 baharıydı. Bir İstanbul fintech'inde mimari toplantısındaydım. Şirket "müşterimize bir AI asistan koyalım" dedi — büyük heyecan. Bir hafta sonra prototip hazırdı: ChatGPT API'ye SSS sorusu, cevap dön. Çalışıyordu. Demo başarılıydı.
Sonra production'a aldılar.
İlk hafta sonu, asistan birkaç müşteriye fiyat listesinde bulunmayan kampanyalardan bahsetti. Pazartesi sabahı bir hesabın IBAN'ını başkasına söyledi (loglardan görüldüğü için fark edildi — gerçek bir veri sızıntısı değildi, ama mühendislik tarafı dehşete kapıldı). Salı günü cevaplar saatte bir değişiyordu çünkü kimse "knowledge base'i güncel tutma" işini sahiplenmemişti. Çarşamba günü yöneticisi "biz neden öyle bir şey yaptık?" diyordu.
Sorun modelde değildi. Sorun verideydi.
- Doküman okuma pipeline'ı yoktu (PDF'leri biri manuel kopyalamıştı).
- Versiyonlama yoktu (eski kampanya dosyası index'te kalmıştı).
- Test set decontamination yoktu (eval sorularının cevapları training korpusunda vardı).
- Lineage yoktu (hangi cevap hangi dokümandan geldi — kimse söyleyemiyordu).
- PII filtresi yoktu (IBAN'lar, telefon numaraları o aksiyon-loglarına serbest akıyordu).
Bütün bunlar veri mühendisliği problemleridir. Ve AI'ın geldiği nokta tam olarak şu: model artık komodite, veri artık moat.
🎯 Bu kursun çekirdek tezi
AI projelerinin %80'i model değil veri problemi yüzünden başarısız oluyor. Veri mühendisliğini AI'a göre konumlayabilen mühendisler, 2026–2030 arasındaki en stratejik teknik rol haline geldi. Bu kurs seni o pozisyona taşımak için yazıldı.
Veri Mühendisi: Bir Tanım Önerisi#
Önce klasik tanım — sonra AI çağında nasıl değiştiğine bakacağız:
Tanım
- Veri Mühendisi
- Bir organizasyonun ürettiği ham veriyi (logs, transactions, events, dokümanlar, görüntüler, sesler) toplayan, taşıyan, dönüştüren, depolayan ve hizmetlerine açan mühendis. Hem yazılım mühendisliği prensiplerini (versiyonlama, test, CI/CD, monitoring) hem de dağıtık sistem bilgisini (sharding, consistency, fault tolerance) veri akışlarına uygular.
Bu tanım 2015'ten beri büyük ölçüde geçerli. Ama 2022 sonrası iki yeni sorumluluk eklendi:
- Eğitim verisi mühendisliği — modelleri besleyen korpusları toplama, temizleme, dedup'lama, decontaminate etme.
- Çıkarım verisi mühendisliği — RAG, feature store, vector index, embedding pipeline — modelin çalışırken erişeceği veri.
Bu iki sorumluluk, klasik analytics-warehouse rolünden farklı, daha gerçek-zamanlı, daha multi-modal, daha production-critical. AI çağında veri mühendisi artık "BI dashboard'lara veri akıtan" değil, "ürünün canlı sinir sistemini ören" kişidir.
30 Yılda 6 Rol: Veri İşinin Evrimi#
Veri mühendisliği unvanı 2011'de Facebook'ta Maxime Beauchemin ("Airflow"un yaratıcısı) ekibinde resmi olarak ortaya çıktı. Ama veri ile profesyonel olarak uğraşan mühendisler 30 yıldır var. Şu evrim hattını bilinçli olarak takip etmek lazım — çünkü bugünkü iş ilanları aynı unvanı 6 farklı rol için kullanıyor, ve doğru rolde olmak kariyerini hızlandırıyor.
Tarihsel haritalama#
| Dönem | Rol | Çıktı | Tipik Stack |
|---|---|---|---|
| 1990–2005 | DBA (Database Administrator) | İlişkisel veritabanı yönetimi, yedekleme, index | Oracle, SQL Server, DB2 |
| 2000–2012 | ETL Developer | Kaynak → DW transform, batch raporlama | Informatica, SSIS, Talend, Teradata |
| 2010–2017 | Big Data Engineer | Hadoop ekosistemi, MapReduce job'ları | Hadoop, Hive, Pig, HBase, Sqoop |
| 2014–2020 | Data Engineer (modern) | Distributed pipeline, streaming, cloud DW | Spark, Kafka, Airflow, Snowflake/BigQuery |
| 2019–bugün | Analytics Engineer | DW içinde modelleme, dbt, semantic layer | dbt, Snowflake, Looker, BigQuery |
| 2023–bugün | AI Data Engineer | LLM korpusu + RAG + feature store + vector + lineage | + Iceberg, vLLM, Qdrant, Feast, OpenLineage |
Dikkat: yeni rol eskiyi silmiyor, üzerine biniyor. Bugün hâlâ DBA da var, ETL geliştirici de. Ama piyasa parası ve ürünün kalbi, en sağdaki rolde.
Her bir role yakından bakalım#
Burada her rolü "ne yapardı, ne yapar, neden değişti" üzerinden anlatacağım. Sen de bugünkü iş ilanlarında bu kalıpları tanımaya başlayacaksın.
Tipik gün: Index analizi, query plan inceleme, backup verification, replication monitoring, tablespace yönetimi, schema migration onayı.
Çekirdek beceri: SQL'in iç işleyişi (B-tree, page, buffer cache, lock granularity), transaction semantics, recovery (WAL, redo log), high availability (DataGuard, Always On, streaming replication).
Neden hâlâ var? OLTP veritabanları (Postgres, MySQL, Oracle) iş dünyasının kanıdır — milyarlarca dolarlık altyapı her gün döner. Bir e-ticaret sitesinin sipariş veritabanı durduğunda DBA aranır, AI Engineer değil.
AI'a köprü: RAG'ın altında çoğunlukla Postgres + pgvector vardır. PII filtresinin source'u OLTP tablosudur. CDC pipeline'ı bir DBA'nın yapılandırdığı logical replication slot'undan başlar.
AI Data Engineer Yetkinlik Atlası#
Bir AI Data Engineer'ın bilmesi gerekenleri 8 kategoride topluyoruz. Bu atlas aynı zamanda bu kursun iskeletidir — her kategori birkaç modüle karşılık geliyor.
Konular: OLTP vs OLAP, warehouse vs lake vs lakehouse, normalleştirme, boyutsal modelleme, NoSQL aileleri, CAP teoremi pratiği.
Neden gerekli? Veri mimarisini yanlış kurarsan, hangi tool'u koyarsan koy çalışmaz. Iceberg yerine MongoDB seçtiğin senaryolar var, MongoDB yerine Postgres seçeceğin senaryolar var.
Kurs karşılığı: Part I (Modül 1–2).
T-Şeklinde AI Data Engineer#
Yukarıdaki 8 kategorinin tamamında uzman olamazsın — ve olmana gerek de yok. İdeal profil T-şeklindedir:
- Yatay bar (genişlik): 8 kategorinin tamamında çalışan bilgi. "Kafka exactly-once'u neden zor" sorusuna sözlü olarak cevap verebilirsin, ama production Kafka cluster'ı tek başına tune etmen gerekmiyor.
- Dikey bar (derinlik): Bir kategoride uçtan uca production. Örneğin "RAG ve doküman pipeline'ları" — 10K PDF'i kendi başına ingest edip Qdrant'a koyup OpenLineage entegrasyonuyla traceable hale getirebilirsin.
Bu kursta önce yatay barı genişleteceğiz (Part I–IV). Sonra senin seçeceğin alan(lar)da dikey bar kazıyacağız — kurs içine 3 capstone projesi yerleştirdik, üçü de farklı dikey bar inşa ediyor.
Bir AI Data Engineer'ın Bir Günü (Gerçekçi Örnek)#
Aşağıdaki senaryo, Türkiye'deki bir orta ölçekli yapay zekâ ürün şirketinin gerçek bir veri mühendisinin haftalık döngüsünden alıntılandı (isim/şirket gizli). Sen de işe başladığında benzer bir ritim göreceksin.
09:00–10:00 — Sabah ritüeli#
- Slack'i aç. Gece çalışan pipeline'larda alert var mı?
- Airflow UI'da bütün DAG'lar yeşil mi? Üç sarı var: birinde aldı, sonunda geçti. İkincisi data quality test'i fail etmiş — bir source tablosu beklenenden %30 az satır göndermiş. Bir Slack thread'i aç, source ekibine soru sor.
retry - Langfuse dashboard'unu aç. LLM API maliyeti dün 180. Hangi route patladı?
10:00–12:00 — Sabah focus block#
- Yeni doküman tipi (kontrat PDF'leri) için ingestion pipeline'ı. Bugün Marker ile parser'ı bağlayacaksın. Test PDF'leri ile çalışıyorsun, sonuçları Argilla'ya atıyorsun ki domain expert yarın değerlendirsin.
- Bir branch açıyorsun, Spark UDF yazıyorsun, lokal test, sonra dev env'a deploy.
12:00–13:00 — Öğle + ad-hoc#
- "Geçen hafta search quality düştü mü?" — analiz ekibinden gelen Slack DM.
- DuckDB ile Iceberg tablosuna 5 dakikalık ad-hoc query. Cevap: evet, %2 recall düşüşü, 3 günden beri. Suspect: yeni eklenen 200 doküman.
- Issue açıyorsun, ekibe haber.
13:00–15:00 — Cross-team toplantı#
- ML ekibiyle fine-tuning roadmap toplantısı. Onlar "5M Türkçe instruction-response pair lazım, gelecek ay" diyor.
- Sen mevcut korpus envanterinden ne çıkarabileceğimizi gösteriyorsun. Synthetic data generation pipeline'ı için PoC kararı veriliyor.
15:00–17:00 — Öğleden sonra focus block#
- Vector index migration: Qdrant 1.10 → 1.13. Schema değişti, downtime yok hedefi.
- Blue-green deploy senaryosu, embedding'leri yeniden yazıyorsun (3 saat batch işlemi, GPU node'unda paralel).
17:00–18:00 — Wrap-up#
- PR'ları review et, Linear'da ticket'ları güncelle, yarına en kritik 3 işi belirle.
- Capacity planning notu: önümüzdeki çeyrekte storage 6TB → 18TB öngörü, infra ile bütçeyi konuş.
Notice: Bu gün hiçbir LLM eğitilmedi, hiç deep learning kodu yazılmadı. Sadece veri üzerinde çalışıldı. Ama bu işlerin doğru yapılması, modelin başarısının %80'i.
🎯 Gerçeklik kontrolü
AI Data Engineer olmak "PyTorch ile model eğitmek" değil. Sen daha çok SQL, Python, Spark, Kafka, Docker, Airflow, Iceberg, Qdrant, dbt göreceksin. Modeli çalıştıran insan sensin, eğiten değil (eğitim büyük ölçüde ML/AI engineer'a kalıyor). Ama modelin kalitesini doğrudan belirleyensin.
Türkiye ve Global Maaş Aralıkları (2026 Q2)#
Maaş verisi LinkedIn, Glassdoor, Levels.fyi, BAE/Bilgi/ITU mezun anketleri, ve doğrudan kaynaktan (Aralık 2025 – Mayıs 2026) derlendi. Brüt, USD bazında, ortanca aralık.
Türkiye (uzaktan + İstanbul/Ankara hibrit)#
| Seviye | Yıllık Brüt (USD) | Net Aylık (TL, ~Mayıs 2026 kuru) | Tipik Deneyim |
|---|---|---|---|
| Junior Data Engineer | 32K | ~50–90K TL | 0–2 yıl |
| Mid Data Engineer | 55K | ~90–155K TL | 2–4 yıl |
| Senior Data Engineer | 85K | ~155–240K TL | 4–7 yıl |
| AI Data Engineer (Senior) | 120K | ~195–340K TL | 4–8 yıl + AI uzmanlığı |
| Staff / Principal Data Eng | 180K | ~280–500K TL | 8+ yıl |
| Remote (US/EU şirketi, Türkiye'de yaşayan) | 200K | $/EUR olarak | 3+ yıl + İngilizce |
Global (sadece referans için)#
| Seviye | ABD Brüt (USD) | Almanya Brüt (EUR) | UK Brüt (GBP) |
|---|---|---|---|
| Mid Data Engineer | 180K | €70K–€95K | £65K–£85K |
| Senior Data Engineer | 260K | €90K–€125K | £85K–£115K |
| AI Data Engineer (Senior) | 340K | €110K–€155K | £100K–£140K |
| Staff Data Engineer | 450K+ | €140K–€200K | £130K–£180K |
Önemli notlar:
- AI Data Engineer premium'u Senior Data Engineer üzerine %20–40 civarında. Bu kursun amacı seni bu premium'u alabilecek konuma taşımak.
- Türkiye remote piyasası 2024–2025'te patladı — bugün İstanbul'da oturup Berlin'deki bir startup'a tam zamanlı çalışan veri mühendisi az değil. İngilizce CV ve teknik mülakat performansı belirleyici.
- "AI hype" bu rakamları kısa vadede şişirmiş olabilir; 5 yıllık trendi tahmin etmek zor. Ama veri rolüne ihtiyaç azalmıyor, sadece şekli değişiyor.
Komşu Roller: AI Data Engineer Kimden Farklı?#
İş ilanı taradığında karışıklık yaratan 5 yakın rol var. Bunları net ayırt etmek hem mülakatta hem kariyer planlamada işine yarar.
| Rol | Ana Odak | Tipik Çıktı | AI Data Engineer ile Örtüşme |
|---|---|---|---|
| ML Engineer | Model eğitimi, fine-tune, serving | Trained model artifact, eval rapor | Eğitim verisini AI Data Eng hazırlar, ML Eng eğitir. Sıkı işbirliği, ortak vocabulary. |
| MLOps Engineer | Model deployment, model monitoring, A/B test infra | Kubeflow operator, MLflow, feature store ops | Feature store + data quality tarafı çakışıyor. Birçok şirkette tek kişi her ikisini de yapıyor. |
| AI Engineer / LLM Engineer | API/agent uygulama, RAG, prompt engineering | Chatbot, copilot, agent | Aynı domain (LLM), farklı katman (uygulama vs altyapı). Aynı şirket çalışır, alanlar birbirini besler. |
| Analytics Engineer | dbt + semantic layer + BI hazırlığı | Production-grade dbt project | DW transform tarafı ortak, AI-spesifik şeyler (vector, RAG) ayrı. |
| Software Engineer (Backend) | Genel ürün backend, API'ler, infra | Microservice, REST/gRPC API | Veri akışını "tüketen" taraf; AI Data Eng "üreten" tarafı. |
Yaygın yanılgı 1: "Ben OpenAI API çağırıyorum, ben AI Engineer'ım." → Doğru, ama henüz AI Data Engineer değilsin. Veri tarafını sahiplenmeden bu unvanı taşımak zorlama olur.
Yaygın yanılgı 2: "Veri mühendisliği yapmak için PyTorch bilmek lazım." → Hayır, ML/DL framework derinlemesine bilmek şart değil. SQL, Python, distributed system bilgisi çok daha kritik. Bu kurs PyTorch dersi vermeyecek (zaten LLM Mühendisliği kursunda var).
Kariyer Basamakları: Junior → Staff#
Aşağıdaki ladder Google/Meta/Stripe/Anthropic gibi şirketlerin job leveling rubric'lerinden distille edildi ve Türkiye'deki ortalama orta-büyük teknoloji şirketine uyarlandı.
L1: Junior Data Engineer (0–2 yıl)#
- Çıktı: Tek başına bir Airflow DAG yazıp deploy edebilir. Mevcut pipeline'da bug fix yapar. SQL'i akıcı yazar.
- Bilmesi gereken: SQL, Python, Airflow temel, Spark temel, Git workflow.
- Karar yetkisi: Yok — senior'ın onayıyla iş gider.
L2: Mid Data Engineer (2–4 yıl)#
- Çıktı: Yeni bir pipeline'ı baştan tasarlayabilir. Performance tuning yapar. Cross-team bağımlılıkları yönetir.
- Bilmesi gereken: + dbt, IaC (Terraform), CI/CD, basic streaming, data modeling.
- Karar yetkisi: Modül-içi mimari kararlar (hangi tool, hangi schema).
L3: Senior Data Engineer (4–7 yıl)#
- Çıktı: Yeni bir veri ürününü uçtan uca sahiplenir. Junior'lara mentor olur. Tech-spec yazar.
- Bilmesi gereken: + distributed system internals, advanced streaming, cost engineering, security/compliance temel.
- Karar yetkisi: Component bazında mimari kararlar, hiring interview yürütücüsü.
L3.5: AI Data Engineer (Senior, AI uzmanlığı) — bu kursun hedefi#
- Çıktı: Üstüne LLM pipeline, vector infra, RAG pipeline, embedding versioning sahipliği.
- Bilmesi gereken: + bütün AI/LLM-spesifik müfredat (bu kursun Part V–VIII'i).
- Premium: %20–40 Senior üzerinde.
L4: Staff Data Engineer (7–12 yıl)#
- Çıktı: Multi-team mimari kararlar. Platform vision. 10+ kişilik ekiplerin teknik liderliği. CEO/CTO seviye sunum.
- Bilmesi gereken: Yukarıdakilerin hepsi + iş anlayışı + organizational influence.
- Karar yetkisi: Şirket genelinde teknoloji seçimi (örn. "Snowflake mi Databricks mi").
L5: Principal / Distinguished (12+ yıl)#
- Çıktı: Endüstri seviyesinde etki. Açık kaynak katkı, paper, konuşma. Şirket dışı vizyon.
Bu kursun rotası: Kursu bitirdiğinde, Junior'san Mid'e, Mid'sen Senior'a, Senior'san L3.5'a (AI Data Engineer) sıçramaya hazır olacaksın. Daha üst seviyeler kurs konusu değil — onlar zamanın işi.
Türkiye'ye Özel Bağlam#
Bu noktayı geçemem: Türkçe AI veri ekosisteminin bugün ihtiyacı olan iki şey var ve bu kurs onların ikisini birden hedefliyor.
1) Türkçe-optimize korpus#
Bugün popüler açık LLM'lerin (Llama 3, Qwen 3, DeepSeek-V3) Türkçe pretrain verisi çoğunlukla Common Crawl'dan otomatik geliyor — kalite filtresi İngilizce için optimize, Türkçe için yetersiz. Sonuç: Türkçe çıktılar İngilizce muadiline kıyasla %20–40 daha zayıf.
Çözüm: Türk veri mühendisleri kendi Türkçe-optimize pipeline'larını yazmak zorunda. Bu kurs Modül 12–16'da o pipeline'ı sıfırdan inşa etmeyi öğretiyor.
2) Türkçe RAG / domain-specific AI sistemleri#
Türkiye'deki şirketlerin %90'ı kendi dokümanlarını (sözleşmeler, regülasyon, ürün kataloğu) Türkçe tutuyor. İngilizce-merkezli RAG yığınları (LangChain default chunking, OpenAI embedding) Türkçe için tatmin edici sonuç vermiyor. Türkçe chunking, Türkçe embedding, Türkçe rerank — hepsi ayrı mühendislik gerektiriyor.
Çözüm: Bu kursun Part VI–VII'sinde Türkçe veriye özel RAG mühendisliği yapacağız. Türkçe sözleşme parsing, Türkçe tablo extraction, Türkçe hybrid search — uygulama bazlı.
Bu iki alan, önümüzdeki 2 yılda Türkiye'de en yüksek karşılığı olan teknik uzmanlıklar olabilir. Erken giren, çok kazanır.
Bu Kursa Başlamak için Ne Bilmen Gerekiyor?#
Aşağıdaki liste minimum. Yarısını biliyorsan başlayabilirsin, eksiklerini yolda kapatırız.
Mutlaka:
- Python orta seviye (list comprehension, fonksiyon, sınıf, virtualenv).
- SQL temel (SELECT, JOIN, GROUP BY, aggregate).
- Komut satırı temel (Linux/Mac/WSL2 — ,
cd,ls, pipe).grep - Git temel (clone, branch, commit, push, pull request).
Yardımcı (yoksa öğretiriz):
- Docker temel.
- Bir cloud servisinde (AWS/GCP/Azure) hesap açmış olmak.
- Bir veritabanı tasarlamış olmak (kişisel proje seviyesinde bile).
- Bir veri pipeline'ı yazmış olmak (cron + script bile sayılır).
Gerekmeyen:
- Derin ML/DL bilgisi (bu kurs ML modeli eğitmiyor, AI sistemlerini besliyor).
- PyTorch / TensorFlow.
- Akademik istatistik veya advanced matematik.
Donanım:
- Laptop: 16GB RAM, 256GB SSD, herhangi bir modern CPU. GPU gerekmez (bazı opsiyonel atölyeler için Colab Free yeterli).
- Düşük internet bandwidth de OK — dataset'leri torrent / mirror ile sunacağız.
💎 Sözüm sana
Kursu hakkını vererek bitirirsen, Türkçe konuşan en hazırlıklı AI veri mühendislerinden biri olursun. 3 capstone projesi GitHub portfolyona ekleneceği için, kursu bitirdiğin gün CV'nde göstereceğin somut işler var. Tek geri ödeme istediğim: öğrendiğin bir şeyi başka bir Türk geliştiriciye anlat. Bilgi ancak paylaşılınca kalıcı olur.
Bir sonraki ders#
Bir sonraki derste (00.2 — Bu kursta ne öğreneceksin) kursun 11 part'ı ve 34 modülünü dakika dakika dolaşacağız. 3 capstone projesinin önizlemesini yapacağız: hangi gerçek probleme çözüm getiriyor, kursun sonunda elinde ne olacak. Hazırsan devam!
Sık Sorulan Sorular
Hayır, şart değil. Türkiye'deki Tier-1 şirketlerin bile bir kısmı portfolyo + mülakat performansına bakıyor. Ancak ilk işe girerken üniversite derecesi (özellikle Bilgisayar Müh., Endüstri Müh., İstatistik) referans/CV filtresinde fark yaratıyor. Bootcamp + güçlü GitHub + bir-iki açık-kaynak katkı genellikle bu farkı kapatıyor.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...