What Will You Learn in This Course? 11 Parts, 34 Modules, 3 Capstones — Full Roadmap
Full roadmap of the course: 11 parts, 34 modules, ~150 lessons, 3 capstone projects. What each module teaches, suggested order, and a map of all workshops.
Şükrü Yusuf KAYA
30 min read
Beginner🗺️ Bu derste
Kursun tamamını dakika dakika önizleyeceğiz — her part'ın amacı, her modülün ders sayısı, her capstone projesinin hedefi. Bu ders aynı zamanda referans olarak işine yarayacak: "3 ay sonra hâlâ Spark mı çalışıyoruz?" diye sorduğunda, bu sayfaya bakıp planı görebileceksin.
Kurs Tasarım Felsefesi#
Müfredatı kurarken 5 prensibe sadık kaldım. Bunları en başta paylaşmak istiyorum — çünkü "neden modül 3'te Iceberg değil Parquet?" gibi sorular ortaya çıktığında, cevap bu prensiplerden geliyor.
1) Bottom-up, top-down değil#
Pratikte "yarın bir RAG sistemi yapalım"la başlayan kurslar çok. Sorun: tool'ları öğretiyor, prensipleri atlıyor. 6 ay sonra LangChain değişiyor, kursun yarısı çürüyor. Biz tam tersini yapıyoruz: önce dosya formatı, partitioning, distributed system gibi temel prensipler, sonra üstlerine tool'lar. Tool değişse de prensip kalır.
2) Her dersin uygulaması var#
Sadece okunan değil, çalıştırılan kurs. Her ders sonunda en az bir runnable kod örneği var. Her modülün sonunda bir atölye var (1–3 saatlik hands-on lab). Üç büyük capstone var (8–10 saatlik proje).
3) Production-realistic#
Toy örneklerle () bir yere gidemiyorsun. Bu kurstaki her örnek, gerçek dünya senaryolardan alındı: 100M satırlık Common Crawl shard'ı, 10TB Iceberg tablosu, 100M vektörlü Qdrant cluster. "Buna gerçek production'da nasıl bakılır?" sorusunun cevabı her derste var.
SELECT * FROM users4) Türkçe-first#
Türkçe veri, Türkçe metin, Türkçe iş ihtiyaçları. Default LangChain config'i kullanan başka kurs çok — Türkçe karakter encoding sorunu çözen kurs sayılı. Biz Türkçe'yi default kabul ediyoruz.
5) Maliyet bilinçli#
Pahalı cloud servisleri (Snowflake 0–10/ay maliyetle çalışan stack kullanıyoruz (Postgres + MinIO + DuckDB + Trino). Production senaryolarda cloud'a geçtiğimizde "neden ve kaç para" sorularını cevaplıyoruz.
Kursun Genel Yapısı#
Kurs 11 part'ta düzenlendi. Aşağıdaki şema part'ların bilgisel akışını gösteriyor — yani neyin neye temel olduğunu.
Part I (Temeller) ↓ Part II (Storage + Format) ↓ Part III (Batch) ─┐ ├─→ Part V (LLM Veri) Part IV (Streaming) ─┤ ↓ └─→ Part VI (Vector/Embedding) ↓ Part VII (RAG Pipeline) ↓ Part VIII (Feature Store) ↓ Part IX (Kalite + Lineage + PII) ↓ Part X (Production + Maliyet) ↓ Part XI (Capstone Projeler)
Sıralı git (Part I → XI). Part III ve IV birbirine paralel ilerleyebilir; Part V batch + streaming bilgisini birleştirir. Part VI ve sonrası Part V'i öne koşar.
PART I — Çerçeve ve Modern Veri Mühendisliği (3 modül)#
Amaç: Veri mimarisi okur-yazarlığı. "Hangi sorun hangi şekille çözülür" sorusunun cevabı.
Modül 00 — Giriş, Yol Haritası ve Lokal Stack (3 ders / ~150 dk) ← Şu an buradayız#
- 00.1 AI çağında veri mühendisi kimdir ← önceki ders
- 00.2 Bu kursta ne öğreneceksin ← bu ders
- 00.3 Atölye kurulumu (Docker Compose ile lokal stack) ← sonraki ders
Modül 01 — Modern Veri Mimarisi Manzarası (4 ders / ~270 dk)#
- 01.1 Warehouse → Lake → Lakehouse: 30 yıllık evrim
- 01.2 OLTP / OLAP / HTAP: hangi soruna hangi şekil
- 01.3 Batch vs Streaming vs Micro-batch
- 01.4 AI-native veri yığını: 2026 referans mimari (5 farklı senaryo)
Modül 02 — Veri Modelleme (5 ders / ~360 dk)#
- 02.1 Normalleştirme (1NF–BCNF)
- 02.2 Boyutsal modelleme (star, snowflake, SCD)
- 02.3 OBT (One Big Table) felsefesi
- 02.4 NoSQL aileleri (document/KV/columnar/graph)
- 02.5 Atölye: E-ticaret + öneri sistemi için hibrit veri modeli
PART II — Depolama, Format, Sorgulama (4 modül)#
Amaç: Veriyi nasıl sakladığın 10–100x performans farkı yaratıyor. Bu part'ta o seçimleri anlayacağız.
Modül 03 — Dosya Formatları (4 ders / ~280 dk)#
- 03.1 CSV/JSON/JSONL: tuzaklar
- 03.2 Parquet derinine (footer, row group, dictionary, statistics)
- 03.3 ORC, Avro, Arrow
- 03.4 Benchmark: 100M satır, Parquet vs CSV vs ORC
Modül 04 — Lakehouse Tablo Formatları (5 ders / ~390 dk)#
- 04.1 Apache Iceberg
- 04.2 Delta Lake
- 04.3 Apache Hudi
- 04.4 Iceberg vs Delta vs Hudi — seçim çerçevesi
- 04.5 Atölye: MinIO + Iceberg + Trino ile lokal lakehouse
Modül 05 — Cloud Object Store (3 ders / ~210 dk)#
- 05.1 S3/GCS/Azure Blob best-practice
- 05.2 Tier'lar ve maliyet
- 05.3 Storage-compute ayrımı
Modül 06 — Modern OLAP Sorgu Motorları (5 ders / ~410 dk)#
- 06.1 DuckDB
- 06.2 Trino/Presto
- 06.3 ClickHouse
- 06.4 Polars + DataFusion
- 06.5 Atölye: 1TB metadata üzerinde 4 motor benchmark
PART III — Batch Pipeline'lar ve Orkestrasyon (3 modül)#
Amaç: AI'a giden verinin %80'i hâlâ batch işleniyor. Bu part'ta endüstri-standart batch yığını.
Modül 07 — Apache Spark Derinine (6 ders / ~510 dk)#
- 07.1 Mimari (driver, executor, Catalyst, Photon)
- 07.2 DataFrame API
- 07.3 Spark SQL + AQE
- 07.4 Performance tuning (partitioning, skew, spill, shuffle)
- 07.5 PySpark vs Scala
- 07.6 Atölye: 100GB JSONL → temizlenmiş Parquet (LLM training prep)
Modül 08 — dbt + Analytics Engineering (4 ders / ~320 dk)#
- 08.1 dbt felsefesi
- 08.2 Models, refs, sources, seeds, snapshots, tests
- 08.3 Jinja + macros
- 08.4 Atölye: 3-katmanlı analytics warehouse
Modül 09 — Workflow Orkestrasyonu (5 ders / ~400 dk)#
- 09.1 Orkestrasyon problemi
- 09.2 Airflow derinine
- 09.3 Dagster (software-defined assets)
- 09.4 Prefect 3.x
- 09.5 Atölye: Airflow ile batch + incremental + SLA pipeline
PART IV — Streaming ve Real-Time (2 modül)#
Amaç: Saniyeler içinde değişen veri akışları — fraud, agent, real-time RAG.
Modül 10 — Apache Kafka (5 ders / ~410 dk)#
- 10.1 Broker, topic, partition, offset, replication
- 10.2 Idempotent + transactional + exactly-once
- 10.3 Kafka Connect
- 10.4 Schema Registry + Avro/Protobuf evolution
- 10.5 Atölye: Postgres → CDC → Kafka → S3 stream replication
Modül 11 — Stream Processing + CDC (5 ders / ~420 dk)#
- 11.1 Event time, watermark, window
- 11.2 Apache Flink
- 11.3 Spark Structured Streaming
- 11.4 Debezium + Materialize/RisingWave
- 11.5 Atölye: AI inference log real-time aggregation + alert
PART V — LLM/AI için Özel Veri Mühendisliği (5 modül) ⭐#
Amaç: Kursun en farklılaştırıcı kısmı. Klasik veri kurslarında olmayan içerik burada.
Modül 12 — LLM Eğitim Verisi Toplama (5 ders / ~430 dk)#
- 12.1 Common Crawl evreni (WARC, WET, WAT)
- 12.2 Web crawling at scale (trafilatura, resiliparse)
- 12.3 Açık dataset'ler (The Pile, RedPajama, FineWeb, Dolma)
- 12.4 Lisans, telif, AI scraping etiği
- 12.5 Atölye: 100GB CC shard'ından temiz Türkçe corpus
Modül 13 — Veri Temizliği ve Kalite Filtreleme (6 ders / ~520 dk)#
- 13.1 Dil tespiti (fastText, CLD3, GlotLID)
- 13.2 Heuristik filtreler
- 13.3 Classifier-based kalite (FineWeb-Edu yaklaşımı)
- 13.4 Toxicity + PII tespit
- 13.5 Boilerplate/spam tespiti
- 13.6 Atölye: Türkçe corpus 7-aşamalı kalite pipeline'ı
Modül 14 — Deduplication + Decontamination (5 ders / ~440 dk)#
- 14.1 Hash tabanlı exact dedup
- 14.2 MinHash + LSH (datatrove)
- 14.3 Semantic dedup
- 14.4 Test-set decontamination (BBH/MMLU/HumanEval)
- 14.5 Atölye: 50GB corpus tam dedup pipeline
Modül 15 — Multi-modal Veri (5 ders / ~420 dk)#
- 15.1 WebDataset, tar shard
- 15.2 LAION, COYO image-text pair
- 15.3 Ses (16/22kHz, VAD, transkript)
- 15.4 Video (keyframe extraction)
- 15.5 Atölye: 100K image-text WebDataset
Modül 16 — Tokenization (4 ders / ~320 dk)#
- 16.1 BPE/Unigram/WordPiece (veri ekseninden)
- 16.2 Tokenizer eğitim verisi seçimi
- 16.3 SentencePiece + Tokenizers büyük-corpus pretokenization
- 16.4 Atölye: 32K Türkçe-optimize BPE + sharded pretokenization
PART VI — Embedding ve Vector Infrastructure (3 modül)#
Amaç: RAG ve semantic search'ün kalbi.
Modül 17 — Embedding Üretimi (4 ders / ~330 dk)#
- 17.1 Embedding modelleri + MTEB seçimi
- 17.2 Batch embedding throughput (vLLM, TEI, Triton)
- 17.3 Embedding versiyonlama
- 17.4 Atölye: 10M doküman BGE-M3 pipeline (Spark + vLLM)
Modül 18 — Vector Database (5 ders / ~440 dk)#
- 18.1 ANN algoritmaları (HNSW, IVF, PQ, ScaNN)
- 18.2 pgvector
- 18.3 Qdrant, Weaviate, Milvus, Pinecone
- 18.4 LanceDB embedded
- 18.5 Atölye: 100M vektör sharded Qdrant cluster
Modül 19 — Hybrid + Reranking (4 ders / ~340 dk)#
- 19.1 BM25 + dense hybrid (RRF, weighted fusion)
- 19.2 ColBERT late interaction
- 19.3 Cross-encoder rerank
- 19.4 Atölye: Türkçe hibrit arama, %93+ recall@10
PART VII — RAG için Veri Pipeline'ları (3 modül)#
Amaç: RAG'ın başarısı %90 chunking + parsing pipeline'ı.
Modül 20 — Chunking (4 ders / ~320 dk)#
- 20.1 Fixed-size, semantic, agentic
- 20.2 Hiyerarşik chunking
- 20.3 Tablo/kod/görsel için özel chunking
- 20.4 Atölye: Türkçe PDF 5-katmanlı chunking pipeline
Modül 21 — Doküman İşleme (5 ders / ~420 dk)#
- 21.1 PDF parsing (Unstructured, PyMuPDF, Marker, Docling)
- 21.2 OCR (PaddleOCR, Surya, dotsOCR)
- 21.3 HTML/Markdown/Office
- 21.4 Tablo çıkarma (Camelot, Tabula, LLM-assisted)
- 21.5 Atölye: 10K PDF end-to-end ingestion
Modül 22 — Incremental Indexing + GraphRAG (4 ders / ~340 dk)#
- 22.1 Incremental (yeni/değişen/silinen)
- 22.2 Versiyonlama, tombstone
- 22.3 Microsoft GraphRAG
- 22.4 Atölye: Confluence-realtime RAG + GraphRAG katmanı
PART VIII — Feature Store ve ML Pipeline (2 modül)#
Modül 23 — Feature Store Mimarisi (5 ders / ~410 dk)#
- 23.1 Online/offline parity + training-serving skew
- 23.2 Feast derinine
- 23.3 Tecton, Hopsworks, Databricks FS
- 23.4 Point-in-time correctness
- 23.5 Atölye: Feast + Redis + Snowflake end-to-end
Modül 24 — ML Training Data (4 ders / ~320 dk)#
- 24.1 Data versioning (DVC, lakeFS, Pachyderm)
- 24.2 Labeling (Label Studio, Argilla, Snorkel)
- 24.3 Synthetic data (LLM-as-labeler)
- 24.4 Atölye: Snapshot'lanabilir continual learning store
PART IX — Kalite, Lineage, Gözlemlenebilirlik, Gizlilik (3 modül)#
Modül 25 — Veri Kalitesi (5 ders / ~400 dk)#
- 25.1 Schema validation (GE, Pandera, Pydantic)
- 25.2 dbt tests + Elementary
- 25.3 Data contracts
- 25.4 Soda Core
- 25.5 Atölye: 7-katmanlı kalite + CI/CD
Modül 26 — Lineage + Catalog + Observability (5 ders / ~390 dk)#
- 26.1 OpenLineage + Marquez
- 26.2 DataHub, OpenMetadata, Amundsen
- 26.3 Column-level lineage
- 26.4 Volume/freshness/schema/distribution anomalileri
- 26.5 Atölye: Airflow + dbt + Spark unified lineage + Slack alert
Modül 27 — PII + KVKK + AI Act (4 ders / ~330 dk)#
- 27.1 Presidio + NER PII pipeline
- 27.2 Pseudonymization, k-anonymity, differential privacy
- 27.3 KVKK + EU AI Act pratik etkileri
- 27.4 Atölye: KVKK-uyumlu ingestion + right-to-be-forgotten
PART X — Production, Maliyet, Ölçek (2 modül)#
Modül 28 — Maliyet Mühendisliği (4 ders / ~330 dk)#
- 28.1 Storage maliyeti
- 28.2 Compute maliyeti
- 28.3 LLM API maliyeti (cache/batch/compression/distillation)
- 28.4 Atölye: 3K cost cut vaka
Modül 29 — Performance + IaC (4 ders / ~340 dk)#
- 29.1 Sharding/partitioning/bucketing
- 29.2 Z-order, liquid clustering, file compaction
- 29.3 Terraform + Pulumi data platform
- 29.4 Atölye: 10TB tabloda 100x speedup + tek komutla deploy
PART XI — Capstone Projeler ve Kapanış (4 modül)#
Bu part'ta kursun tamamını birleştiren 3 büyük proje yapacağız. Her biri 6–10 saatlik bir yapım — sonunda GitHub portfolyona koyabileceğin, mülakatta detayını anlatabileceğin somut iş çıkıyor.
Modül 30 — Capstone 1: LLM Pretrain Corpus (6 ders / ~600 dk)#
Senaryo: Türkçe-optimize bir LLM pretrain corpus üretmek.
Pipeline: Common Crawl → Türkçe filtreleme → kalite scoring → MinHash dedup → decontamination → tokenization → sharded WebDataset.
Çıktı: 30–50GB temizlenmiş Türkçe corpus + custom BPE tokenizer + HuggingFace-uyumlu dataset.
Tools: PySpark, datatrove, SentencePiece, OpenLineage.
Modül 31 — Capstone 2: Production RAG Platform (6 ders / ~720 dk)#
Senaryo: Çok kaynaklı (PDF, web, Confluence, DB), çok kiracılı (multi-tenant), monitored RAG infrastructure.
Pipeline: Source connector → Unstructured/Marker parsing → Türkçe-optimize chunking → BGE-M3 embedding (batch) → Qdrant (sharded) → hybrid search + reranker → Langfuse observability.
Çıktı: REST API, Streamlit demo, Grafana dashboard, end-to-end traceable system.
Tools: Spark, vLLM, Qdrant, Airflow, Langfuse, OpenLineage.
Modül 32 — Capstone 3: Real-Time Feature Store (5 ders / ~540 dk)#
Senaryo: E-ticarette gerçek-zamanlı fraud detection + personalization için feature store.
Pipeline: CDC (Postgres → Debezium → Kafka) → Flink streaming features → Iceberg (batch) + Redis (online) → Feast registry → ML serving.
Çıktı: Online/offline parity'li, point-in-time correct, latency p95 < 10ms feature store.
Tools: Kafka, Flink, Iceberg, Redis, Feast, Great Expectations.
Modül 33 — Kapanış (2 ders / ~120 dk)#
- 33.1 AI Data Engineer kariyer haritası — Junior'dan Staff'a
- 33.2 Sertifika + açık-kaynak + portfolyo + mülakat hazırlığı
🎯 Capstone vaadi
Bu 3 capstone'u tamamladığında, CV'nde göstereceğin gerçek iş olur. "AI veri pipeline'ı kurabilir mi?" sorusuna mülakatta cevap yerine GitHub linki verebilirsin. Her capstone'un kendi public README'si, kendi mimari diyagramı, kendi demo video kaydı olacak.
Toplam İstatistikler#
| Metrik | Değer |
|---|---|
| Part | 11 |
| Modül | 34 |
| Ders | ~150 |
| Toplam okuma süresi | ~12.500 dakika (~208 saat) |
| Atölye sayısı | 30+ |
| Capstone proje | 3 büyük |
| Toplam runnable kod | 200+ |
| Diller | Türkçe (TR) + İngilizce (EN) |
| Erişim | Tamamen ücretsiz |
Önerilen tempo: Haftada 8–10 saat → ~6 aylık tam yolculuk.
Kursta Nasıl Hareket Edeceksin?#
Sıralı git#
Part I → Part XI sırasında ilerle. Önceki modülün atölyesini tamamlamadan sonrakine geçme. Sıkışıyorsan bir adım geri dön ve eksik temeli kapat.
Atölyeleri atlama#
"Bunu okudum, atlayayım" tuzağına düşme. Atölye = elinin tuş takımıyla kod yazma + hata ayıklama. Sadece okumayla yetenek gelmiyor.
Capstone'ları zamana yay#
Capstone'u 1–2 günde sıkıştırmak yerine 1 haftalık periyoda yay. Sorularını topla, kursun ilerideki modüllerine sor, dön gel. Capstone üzerinde yavaş kalmak iyi.
Tartış, soru sor, yaz#
Her dersin altında yorum bölümü açacağız. Aklında soru kalırsa orada sor. Başka bir öğrenciye yardım edebileceğin yerleri de gör — öğretmek, öğrenmenin en hızlı yolu.
Notlar al, paylaş#
Modül sonunda kendi özet notlarını yaz, bir blog post'a çevir, LinkedIn'e koy. Yazarak öğrenmek, sadece okuyarak öğrenmenin 3 katı kalıcı.
Bu Kurs NE DEĞİL?#
Yanlış beklentiyle başlamayasın diye netleştireyim:
- ❌ LLM eğitim kursu değil. Modelin nasıl eğitildiğini değil, eğitime giden ve eğitimden çıkan verinin nasıl yönetildiğini öğretiyor.
- ❌ PyTorch/TensorFlow eğitimi değil. Tek bir DL framework satırı çoğunlukla yazmayacağız.
- ❌ LangChain/LlamaIndex tutorial'ı değil. Bu tool'ları gerektiğinde göstereceğim, ama altlarında ne olduğunu da göstereceğim — ile başlayan kurslardan farkımız bu.
pip install langchain - ❌ Akademik bir veritabanı kursu değil. Üniversite müfredatlarındaki "İlişkisel cebir + tüpler" odaklı yaklaşım yok. Pratik üzerine kurulmuş.
- ❌ Tool ezberleme kursu değil. Tek bir vendor (örn. Databricks veya AWS) odaklı değil. Açık-kaynak öncelikli, vendor-neutral.
Bir sonraki ders: Atölyeyi açıyoruz#
Bir sonraki derste (00.3) artık konuşmayı bırakıp kod yazmaya başlıyoruz. Bilgisayarına profesyonel bir lokal stack kuracağız:
- uv ile Python 3.12 environment
- Docker Compose ile servis yığını:
- Postgres 16 (+ pgvector)
- MinIO (S3-uyumlu object store)
- Apache Kafka + Schema Registry
- Apache Spark (single-node cluster)
- JupyterLab + DuckDB
- VS Code + Cursor setup
- İlk "hello pipeline" çalıştırması
Bu kurulum kursun tamamı boyunca kullanılacak. Tek seferde hallediyoruz. Hazır mısın?
Frequently Asked Questions
Yes. Each lesson has TR and EN versions (EN rolling out). Default is TR; use /en/learn/ for English.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...