Technically yes, but not recommended. Each module builds on previous ones. If you're experienced with Spark, skim Module 07 but still do the workshop.

Can I publish capstones as portfolio?

Yes — recommended. MIT/Apache 2.0 license. Publish on your own GitHub with reference to the course. Even better: adapt to your own domain.

Will the content be updated?

Yes — bi-annual review. Major version changes will have changelogs on lesson pages.

What Will You Learn in This Course? 11 Parts, 34 Modules, 3 Capstones — Full Roadmap

Q: Can I follow the course in Turkish and English?

Yes. Each lesson has TR and EN versions (EN rolling out). Default is TR; use /en/learn/ for English.

Full roadmap of the course: 11 parts, 34 modules, ~150 lessons, 3 capstone projects. What each module teaches, suggested order, and a map of all workshops.

Şükrü Yusuf KAYA

30 min read

5/13/2026

Beginner

Bu Kursta Ne Öğreneceksin? 11 Part, 34 Modül, 3 Capstone — Tam Yol Haritası

🗺️ Bu derste

Kursun tamamını dakika dakika önizleyeceğiz — her part'ın amacı, her modülün ders sayısı, her capstone projesinin hedefi. Bu ders aynı zamanda referans olarak işine yarayacak: "3 ay sonra hâlâ Spark mı çalışıyoruz?" diye sorduğunda, bu sayfaya bakıp planı görebileceksin.

Kurs Tasarım Felsefesi#

Müfredatı kurarken 5 prensibe sadık kaldım. Bunları en başta paylaşmak istiyorum — çünkü "neden modül 3'te Iceberg değil Parquet?" gibi sorular ortaya çıktığında, cevap bu prensiplerden geliyor.

1) Bottom-up, top-down değil#

Pratikte "yarın bir RAG sistemi yapalım"la başlayan kurslar çok. Sorun: tool'ları öğretiyor, prensipleri atlıyor. 6 ay sonra LangChain değişiyor, kursun yarısı çürüyor. Biz tam tersini yapıyoruz: önce dosya formatı, partitioning, distributed system gibi temel prensipler, sonra üstlerine tool'lar. Tool değişse de prensip kalır.

2) Her dersin uygulaması var#

Sadece okunan değil, çalıştırılan kurs. Her ders sonunda en az bir runnable kod örneği var. Her modülün sonunda bir atölye var (1–3 saatlik hands-on lab). Üç büyük capstone var (8–10 saatlik proje).

3) Production-realistic#

Toy örneklerle (

SELECT * FROM users

) bir yere gidemiyorsun. Bu kurstaki her örnek, gerçek dünya senaryolardan alındı: 100M satırlık Common Crawl shard'ı, 10TB Iceberg tablosu, 100M vektörlü Qdrant cluster. "Buna gerçek production'da nasıl bakılır?" sorusunun cevabı her derste var.

4) Türkçe-first#

Türkçe veri, Türkçe metin, Türkçe iş ihtiyaçları. Default LangChain config'i kullanan başka kurs çok — Türkçe karakter encoding sorunu çözen kurs sayılı. Biz Türkçe'yi default kabul ediyoruz.

5) Maliyet bilinçli#

Pahalı cloud servisleri (Snowflake

2K/ay) **opsiyonel**. Default olarak laptop'ta veya

0–10/ay maliyetle çalışan stack kullanıyoruz (Postgres + MinIO + DuckDB + Trino). Production senaryolarda cloud'a geçtiğimizde "neden ve kaç para" sorularını cevaplıyoruz.

Kursun Genel Yapısı#

Kurs 11 part'ta düzenlendi. Aşağıdaki şema part'ların bilgisel akışını gösteriyor — yani neyin neye temel olduğunu.

Part I (Temeller)
    ↓
Part II (Storage + Format)
    ↓
Part III (Batch) ─┐
                  ├─→ Part V (LLM Veri)
Part IV (Streaming) ─┤      ↓
                  └─→ Part VI (Vector/Embedding)
                          ↓
                  Part VII (RAG Pipeline)
                          ↓
                  Part VIII (Feature Store)
                          ↓
                  Part IX (Kalite + Lineage + PII)
                          ↓
                  Part X (Production + Maliyet)
                          ↓
                  Part XI (Capstone Projeler)

Sıralı git (Part I → XI). Part III ve IV birbirine paralel ilerleyebilir; Part V batch + streaming bilgisini birleştirir. Part VI ve sonrası Part V'i öne koşar.

PART I — Çerçeve ve Modern Veri Mühendisliği (3 modül)#

Amaç: Veri mimarisi okur-yazarlığı. "Hangi sorun hangi şekille çözülür" sorusunun cevabı.

Modül 00 — Giriş, Yol Haritası ve Lokal Stack (3 ders / ~150 dk) ← Şu an buradayız#

00.1 AI çağında veri mühendisi kimdir ← önceki ders
00.2 Bu kursta ne öğreneceksin ← bu ders
00.3 Atölye kurulumu (Docker Compose ile lokal stack) ← sonraki ders

Modül 01 — Modern Veri Mimarisi Manzarası (4 ders / ~270 dk)#

01.1 Warehouse → Lake → Lakehouse: 30 yıllık evrim
01.2 OLTP / OLAP / HTAP: hangi soruna hangi şekil
01.3 Batch vs Streaming vs Micro-batch
01.4 AI-native veri yığını: 2026 referans mimari (5 farklı senaryo)

Modül 02 — Veri Modelleme (5 ders / ~360 dk)#

02.1 Normalleştirme (1NF–BCNF)
02.2 Boyutsal modelleme (star, snowflake, SCD)
02.3 OBT (One Big Table) felsefesi
02.4 NoSQL aileleri (document/KV/columnar/graph)
02.5 Atölye: E-ticaret + öneri sistemi için hibrit veri modeli

PART II — Depolama, Format, Sorgulama (4 modül)#

Amaç: Veriyi nasıl sakladığın 10–100x performans farkı yaratıyor. Bu part'ta o seçimleri anlayacağız.

Modül 03 — Dosya Formatları (4 ders / ~280 dk)#

03.1 CSV/JSON/JSONL: tuzaklar
03.2 Parquet derinine (footer, row group, dictionary, statistics)
03.3 ORC, Avro, Arrow
03.4 Benchmark: 100M satır, Parquet vs CSV vs ORC

Modül 04 — Lakehouse Tablo Formatları (5 ders / ~390 dk)#

04.1 Apache Iceberg
04.2 Delta Lake
04.3 Apache Hudi
04.4 Iceberg vs Delta vs Hudi — seçim çerçevesi
04.5 Atölye: MinIO + Iceberg + Trino ile lokal lakehouse

Modül 05 — Cloud Object Store (3 ders / ~210 dk)#

05.1 S3/GCS/Azure Blob best-practice
05.2 Tier'lar ve maliyet
05.3 Storage-compute ayrımı

Modül 06 — Modern OLAP Sorgu Motorları (5 ders / ~410 dk)#

06.1 DuckDB
06.2 Trino/Presto
06.3 ClickHouse
06.4 Polars + DataFusion
06.5 Atölye: 1TB metadata üzerinde 4 motor benchmark

PART III — Batch Pipeline'lar ve Orkestrasyon (3 modül)#

Amaç: AI'a giden verinin %80'i hâlâ batch işleniyor. Bu part'ta endüstri-standart batch yığını.

Modül 07 — Apache Spark Derinine (6 ders / ~510 dk)#

07.1 Mimari (driver, executor, Catalyst, Photon)
07.2 DataFrame API
07.3 Spark SQL + AQE
07.4 Performance tuning (partitioning, skew, spill, shuffle)
07.5 PySpark vs Scala
07.6 Atölye: 100GB JSONL → temizlenmiş Parquet (LLM training prep)

Modül 08 — dbt + Analytics Engineering (4 ders / ~320 dk)#

08.1 dbt felsefesi
08.2 Models, refs, sources, seeds, snapshots, tests
08.3 Jinja + macros
08.4 Atölye: 3-katmanlı analytics warehouse

Modül 09 — Workflow Orkestrasyonu (5 ders / ~400 dk)#

09.1 Orkestrasyon problemi
09.2 Airflow derinine
09.3 Dagster (software-defined assets)
09.4 Prefect 3.x
09.5 Atölye: Airflow ile batch + incremental + SLA pipeline

PART IV — Streaming ve Real-Time (2 modül)#

Amaç: Saniyeler içinde değişen veri akışları — fraud, agent, real-time RAG.

Modül 10 — Apache Kafka (5 ders / ~410 dk)#

10.1 Broker, topic, partition, offset, replication
10.2 Idempotent + transactional + exactly-once
10.3 Kafka Connect
10.4 Schema Registry + Avro/Protobuf evolution
10.5 Atölye: Postgres → CDC → Kafka → S3 stream replication

Modül 11 — Stream Processing + CDC (5 ders / ~420 dk)#

11.1 Event time, watermark, window
11.2 Apache Flink
11.3 Spark Structured Streaming
11.4 Debezium + Materialize/RisingWave
11.5 Atölye: AI inference log real-time aggregation + alert

PART V — LLM/AI için Özel Veri Mühendisliği (5 modül) ⭐#

Amaç: Kursun en farklılaştırıcı kısmı. Klasik veri kurslarında olmayan içerik burada.

Modül 12 — LLM Eğitim Verisi Toplama (5 ders / ~430 dk)#

12.1 Common Crawl evreni (WARC, WET, WAT)
12.2 Web crawling at scale (trafilatura, resiliparse)
12.3 Açık dataset'ler (The Pile, RedPajama, FineWeb, Dolma)
12.4 Lisans, telif, AI scraping etiği
12.5 Atölye: 100GB CC shard'ından temiz Türkçe corpus

Modül 13 — Veri Temizliği ve Kalite Filtreleme (6 ders / ~520 dk)#

13.1 Dil tespiti (fastText, CLD3, GlotLID)
13.2 Heuristik filtreler
13.3 Classifier-based kalite (FineWeb-Edu yaklaşımı)
13.4 Toxicity + PII tespit
13.5 Boilerplate/spam tespiti
13.6 Atölye: Türkçe corpus 7-aşamalı kalite pipeline'ı

Modül 14 — Deduplication + Decontamination (5 ders / ~440 dk)#

14.1 Hash tabanlı exact dedup
14.2 MinHash + LSH (datatrove)
14.3 Semantic dedup
14.4 Test-set decontamination (BBH/MMLU/HumanEval)
14.5 Atölye: 50GB corpus tam dedup pipeline

15.1 WebDataset, tar shard
15.2 LAION, COYO image-text pair
15.3 Ses (16/22kHz, VAD, transkript)
15.4 Video (keyframe extraction)
15.5 Atölye: 100K image-text WebDataset

Modül 16 — Tokenization (4 ders / ~320 dk)#

16.1 BPE/Unigram/WordPiece (veri ekseninden)
16.2 Tokenizer eğitim verisi seçimi
16.3 SentencePiece + Tokenizers büyük-corpus pretokenization
16.4 Atölye: 32K Türkçe-optimize BPE + sharded pretokenization

PART VI — Embedding ve Vector Infrastructure (3 modül)#

Amaç: RAG ve semantic search'ün kalbi.

Modül 17 — Embedding Üretimi (4 ders / ~330 dk)#

17.1 Embedding modelleri + MTEB seçimi
17.2 Batch embedding throughput (vLLM, TEI, Triton)
17.3 Embedding versiyonlama
17.4 Atölye: 10M doküman BGE-M3 pipeline (Spark + vLLM)

Modül 18 — Vector Database (5 ders / ~440 dk)#

18.1 ANN algoritmaları (HNSW, IVF, PQ, ScaNN)
18.2 pgvector
18.3 Qdrant, Weaviate, Milvus, Pinecone
18.4 LanceDB embedded
18.5 Atölye: 100M vektör sharded Qdrant cluster

Modül 19 — Hybrid + Reranking (4 ders / ~340 dk)#

19.1 BM25 + dense hybrid (RRF, weighted fusion)
19.2 ColBERT late interaction
19.3 Cross-encoder rerank
19.4 Atölye: Türkçe hibrit arama, %93+ recall@10

PART VII — RAG için Veri Pipeline'ları (3 modül)#

Amaç: RAG'ın başarısı %90 chunking + parsing pipeline'ı.

Modül 20 — Chunking (4 ders / ~320 dk)#

20.1 Fixed-size, semantic, agentic
20.2 Hiyerarşik chunking
20.3 Tablo/kod/görsel için özel chunking
20.4 Atölye: Türkçe PDF 5-katmanlı chunking pipeline

Modül 21 — Doküman İşleme (5 ders / ~420 dk)#

21.1 PDF parsing (Unstructured, PyMuPDF, Marker, Docling)
21.2 OCR (PaddleOCR, Surya, dotsOCR)
21.3 HTML/Markdown/Office
21.4 Tablo çıkarma (Camelot, Tabula, LLM-assisted)
21.5 Atölye: 10K PDF end-to-end ingestion

Modül 22 — Incremental Indexing + GraphRAG (4 ders / ~340 dk)#

22.1 Incremental (yeni/değişen/silinen)
22.2 Versiyonlama, tombstone
22.3 Microsoft GraphRAG
22.4 Atölye: Confluence-realtime RAG + GraphRAG katmanı

PART VIII — Feature Store ve ML Pipeline (2 modül)#

Modül 23 — Feature Store Mimarisi (5 ders / ~410 dk)#

23.1 Online/offline parity + training-serving skew
23.2 Feast derinine
23.3 Tecton, Hopsworks, Databricks FS
23.4 Point-in-time correctness
23.5 Atölye: Feast + Redis + Snowflake end-to-end

Modül 24 — ML Training Data (4 ders / ~320 dk)#

24.1 Data versioning (DVC, lakeFS, Pachyderm)
24.2 Labeling (Label Studio, Argilla, Snorkel)
24.3 Synthetic data (LLM-as-labeler)
24.4 Atölye: Snapshot'lanabilir continual learning store

PART IX — Kalite, Lineage, Gözlemlenebilirlik, Gizlilik (3 modül)#

Modül 25 — Veri Kalitesi (5 ders / ~400 dk)#

25.1 Schema validation (GE, Pandera, Pydantic)
25.2 dbt tests + Elementary
25.3 Data contracts
25.4 Soda Core
25.5 Atölye: 7-katmanlı kalite + CI/CD

Modül 26 — Lineage + Catalog + Observability (5 ders / ~390 dk)#

26.1 OpenLineage + Marquez
26.2 DataHub, OpenMetadata, Amundsen
26.3 Column-level lineage
26.4 Volume/freshness/schema/distribution anomalileri
26.5 Atölye: Airflow + dbt + Spark unified lineage + Slack alert

Modül 27 — PII + KVKK + AI Act (4 ders / ~330 dk)#

27.1 Presidio + NER PII pipeline
27.2 Pseudonymization, k-anonymity, differential privacy
27.3 KVKK + EU AI Act pratik etkileri
27.4 Atölye: KVKK-uyumlu ingestion + right-to-be-forgotten

PART X — Production, Maliyet, Ölçek (2 modül)#

Modül 28 — Maliyet Mühendisliği (4 ders / ~330 dk)#

28.1 Storage maliyeti
28.2 Compute maliyeti
28.3 LLM API maliyeti (cache/batch/compression/distillation)
28.4 Atölye: $20K →$ 3K cost cut vaka

Modül 29 — Performance + IaC (4 ders / ~340 dk)#

29.1 Sharding/partitioning/bucketing
29.2 Z-order, liquid clustering, file compaction
29.3 Terraform + Pulumi data platform
29.4 Atölye: 10TB tabloda 100x speedup + tek komutla deploy

PART XI — Capstone Projeler ve Kapanış (4 modül)#

Bu part'ta kursun tamamını birleştiren 3 büyük proje yapacağız. Her biri 6–10 saatlik bir yapım — sonunda GitHub portfolyona koyabileceğin, mülakatta detayını anlatabileceğin somut iş çıkıyor.

Modül 30 — Capstone 1: LLM Pretrain Corpus (6 ders / ~600 dk)#

Senaryo: Türkçe-optimize bir LLM pretrain corpus üretmek. Pipeline: Common Crawl → Türkçe filtreleme → kalite scoring → MinHash dedup → decontamination → tokenization → sharded WebDataset. Çıktı: 30–50GB temizlenmiş Türkçe corpus + custom BPE tokenizer + HuggingFace-uyumlu dataset. Tools: PySpark, datatrove, SentencePiece, OpenLineage.

Modül 31 — Capstone 2: Production RAG Platform (6 ders / ~720 dk)#

Senaryo: Çok kaynaklı (PDF, web, Confluence, DB), çok kiracılı (multi-tenant), monitored RAG infrastructure. Pipeline: Source connector → Unstructured/Marker parsing → Türkçe-optimize chunking → BGE-M3 embedding (batch) → Qdrant (sharded) → hybrid search + reranker → Langfuse observability. Çıktı: REST API, Streamlit demo, Grafana dashboard, end-to-end traceable system. Tools: Spark, vLLM, Qdrant, Airflow, Langfuse, OpenLineage.

Modül 32 — Capstone 3: Real-Time Feature Store (5 ders / ~540 dk)#

Senaryo: E-ticarette gerçek-zamanlı fraud detection + personalization için feature store. Pipeline: CDC (Postgres → Debezium → Kafka) → Flink streaming features → Iceberg (batch) + Redis (online) → Feast registry → ML serving. Çıktı: Online/offline parity'li, point-in-time correct, latency p95 < 10ms feature store. Tools: Kafka, Flink, Iceberg, Redis, Feast, Great Expectations.

Modül 33 — Kapanış (2 ders / ~120 dk)#

33.1 AI Data Engineer kariyer haritası — Junior'dan Staff'a
33.2 Sertifika + açık-kaynak + portfolyo + mülakat hazırlığı

🎯 Capstone vaadi

Bu 3 capstone'u tamamladığında, CV'nde göstereceğin gerçek iş olur. "AI veri pipeline'ı kurabilir mi?" sorusuna mülakatta cevap yerine GitHub linki verebilirsin. Her capstone'un kendi public README'si, kendi mimari diyagramı, kendi demo video kaydı olacak.

Toplam İstatistikler#

Metrik	Değer
Part	11
Modül	34
Ders	~150
Toplam okuma süresi	~12.500 dakika (~208 saat)
Atölye sayısı	30+
Capstone proje	3 büyük
Toplam runnable kod	200+
Diller	Türkçe (TR) + İngilizce (EN)
Erişim	Tamamen ücretsiz

Önerilen tempo: Haftada 8–10 saat → ~6 aylık tam yolculuk.

Kursta Nasıl Hareket Edeceksin?#

Sıralı git#

Part I → Part XI sırasında ilerle. Önceki modülün atölyesini tamamlamadan sonrakine geçme. Sıkışıyorsan bir adım geri dön ve eksik temeli kapat.

Atölyeleri atlama#

"Bunu okudum, atlayayım" tuzağına düşme. Atölye = elinin tuş takımıyla kod yazma + hata ayıklama. Sadece okumayla yetenek gelmiyor.

Capstone'ları zamana yay#

Capstone'u 1–2 günde sıkıştırmak yerine 1 haftalık periyoda yay. Sorularını topla, kursun ilerideki modüllerine sor, dön gel. Capstone üzerinde yavaş kalmak iyi.

Tartış, soru sor, yaz#

Her dersin altında yorum bölümü açacağız. Aklında soru kalırsa orada sor. Başka bir öğrenciye yardım edebileceğin yerleri de gör — öğretmek, öğrenmenin en hızlı yolu.

Notlar al, paylaş#

Modül sonunda kendi özet notlarını yaz, bir blog post'a çevir, LinkedIn'e koy. Yazarak öğrenmek, sadece okuyarak öğrenmenin 3 katı kalıcı.

Bu Kurs NE DEĞİL?#

Yanlış beklentiyle başlamayasın diye netleştireyim:

❌ LLM eğitim kursu değil. Modelin nasıl eğitildiğini değil, eğitime giden ve eğitimden çıkan verinin nasıl yönetildiğini öğretiyor.
❌ PyTorch/TensorFlow eğitimi değil. Tek bir DL framework satırı çoğunlukla yazmayacağız.
❌ LangChain/LlamaIndex tutorial'ı değil. Bu tool'ları gerektiğinde göstereceğim, ama altlarında ne olduğunu da göstereceğim —
pip install langchain
ile başlayan kurslardan farkımız bu.
❌ Akademik bir veritabanı kursu değil. Üniversite müfredatlarındaki "İlişkisel cebir + tüpler" odaklı yaklaşım yok. Pratik üzerine kurulmuş.
❌ Tool ezberleme kursu değil. Tek bir vendor (örn. Databricks veya AWS) odaklı değil. Açık-kaynak öncelikli, vendor-neutral.

Bir sonraki ders: Atölyeyi açıyoruz#

Bir sonraki derste (00.3) artık konuşmayı bırakıp kod yazmaya başlıyoruz. Bilgisayarına profesyonel bir lokal stack kuracağız:

uv ile Python 3.12 environment
Docker Compose ile servis yığını:
- Postgres 16 (+ pgvector)
- MinIO (S3-uyumlu object store)
- Apache Kafka + Schema Registry
- Apache Spark (single-node cluster)
- JupyterLab + DuckDB
VS Code + Cursor setup
İlk "hello pipeline" çalıştırması

Bu kurulum kursun tamamı boyunca kullanılacak. Tek seferde hallediyoruz. Hazır mısın?

Frequently Asked Questions