Skip to content

What Will You Learn in This Course? 11 Parts, 34 Modules, 3 Capstones — Full Roadmap

Full roadmap of the course: 11 parts, 34 modules, ~150 lessons, 3 capstone projects. What each module teaches, suggested order, and a map of all workshops.

Şükrü Yusuf KAYA
30 min read
Beginner
Bu Kursta Ne Öğreneceksin? 11 Part, 34 Modül, 3 Capstone — Tam Yol Haritası
🗺️ Bu derste
Kursun tamamını dakika dakika önizleyeceğiz — her part'ın amacı, her modülün ders sayısı, her capstone projesinin hedefi. Bu ders aynı zamanda referans olarak işine yarayacak: "3 ay sonra hâlâ Spark mı çalışıyoruz?" diye sorduğunda, bu sayfaya bakıp planı görebileceksin.

Kurs Tasarım Felsefesi#

Müfredatı kurarken 5 prensibe sadık kaldım. Bunları en başta paylaşmak istiyorum — çünkü "neden modül 3'te Iceberg değil Parquet?" gibi sorular ortaya çıktığında, cevap bu prensiplerden geliyor.

1) Bottom-up, top-down değil#

Pratikte "yarın bir RAG sistemi yapalım"la başlayan kurslar çok. Sorun: tool'ları öğretiyor, prensipleri atlıyor. 6 ay sonra LangChain değişiyor, kursun yarısı çürüyor. Biz tam tersini yapıyoruz: önce dosya formatı, partitioning, distributed system gibi temel prensipler, sonra üstlerine tool'lar. Tool değişse de prensip kalır.

2) Her dersin uygulaması var#

Sadece okunan değil, çalıştırılan kurs. Her ders sonunda en az bir runnable kod örneği var. Her modülün sonunda bir atölye var (1–3 saatlik hands-on lab). Üç büyük capstone var (8–10 saatlik proje).

3) Production-realistic#

Toy örneklerle (
SELECT * FROM users
) bir yere gidemiyorsun. Bu kurstaki her örnek, gerçek dünya senaryolardan alındı: 100M satırlık Common Crawl shard'ı, 10TB Iceberg tablosu, 100M vektörlü Qdrant cluster. "Buna gerçek production'da nasıl bakılır?" sorusunun cevabı her derste var.

4) Türkçe-first#

Türkçe veri, Türkçe metin, Türkçe iş ihtiyaçları. Default LangChain config'i kullanan başka kurs çok — Türkçe karakter encoding sorunu çözen kurs sayılı. Biz Türkçe'yi default kabul ediyoruz.

5) Maliyet bilinçli#

Pahalı cloud servisleri (Snowflake 2K/ay)opsiyonel.Defaultolaraklaptoptaveya2K/ay) **opsiyonel**. Default olarak laptop'ta veya 0–10/ay maliyetle çalışan stack kullanıyoruz (Postgres + MinIO + DuckDB + Trino). Production senaryolarda cloud'a geçtiğimizde "neden ve kaç para" sorularını cevaplıyoruz.

Kursun Genel Yapısı#

Kurs 11 part'ta düzenlendi. Aşağıdaki şema part'ların bilgisel akışını gösteriyor — yani neyin neye temel olduğunu.
Part I (Temeller) ↓ Part II (Storage + Format) ↓ Part III (Batch) ─┐ ├─→ Part V (LLM Veri) Part IV (Streaming) ─┤ ↓ └─→ Part VI (Vector/Embedding) ↓ Part VII (RAG Pipeline) ↓ Part VIII (Feature Store) ↓ Part IX (Kalite + Lineage + PII) ↓ Part X (Production + Maliyet) ↓ Part XI (Capstone Projeler)
Sıralı git (Part I → XI). Part III ve IV birbirine paralel ilerleyebilir; Part V batch + streaming bilgisini birleştirir. Part VI ve sonrası Part V'i öne koşar.

PART I — Çerçeve ve Modern Veri Mühendisliği (3 modül)#

Amaç: Veri mimarisi okur-yazarlığı. "Hangi sorun hangi şekille çözülür" sorusunun cevabı.

Modül 00 — Giriş, Yol Haritası ve Lokal Stack (3 ders / ~150 dk) ← Şu an buradayız#

  • 00.1 AI çağında veri mühendisi kimdir ← önceki ders
  • 00.2 Bu kursta ne öğreneceksin ← bu ders
  • 00.3 Atölye kurulumu (Docker Compose ile lokal stack) ← sonraki ders

Modül 01 — Modern Veri Mimarisi Manzarası (4 ders / ~270 dk)#

  • 01.1 Warehouse → Lake → Lakehouse: 30 yıllık evrim
  • 01.2 OLTP / OLAP / HTAP: hangi soruna hangi şekil
  • 01.3 Batch vs Streaming vs Micro-batch
  • 01.4 AI-native veri yığını: 2026 referans mimari (5 farklı senaryo)

Modül 02 — Veri Modelleme (5 ders / ~360 dk)#

  • 02.1 Normalleştirme (1NF–BCNF)
  • 02.2 Boyutsal modelleme (star, snowflake, SCD)
  • 02.3 OBT (One Big Table) felsefesi
  • 02.4 NoSQL aileleri (document/KV/columnar/graph)
  • 02.5 Atölye: E-ticaret + öneri sistemi için hibrit veri modeli

PART II — Depolama, Format, Sorgulama (4 modül)#

Amaç: Veriyi nasıl sakladığın 10–100x performans farkı yaratıyor. Bu part'ta o seçimleri anlayacağız.

Modül 03 — Dosya Formatları (4 ders / ~280 dk)#

  • 03.1 CSV/JSON/JSONL: tuzaklar
  • 03.2 Parquet derinine (footer, row group, dictionary, statistics)
  • 03.3 ORC, Avro, Arrow
  • 03.4 Benchmark: 100M satır, Parquet vs CSV vs ORC

Modül 04 — Lakehouse Tablo Formatları (5 ders / ~390 dk)#

  • 04.1 Apache Iceberg
  • 04.2 Delta Lake
  • 04.3 Apache Hudi
  • 04.4 Iceberg vs Delta vs Hudi — seçim çerçevesi
  • 04.5 Atölye: MinIO + Iceberg + Trino ile lokal lakehouse

Modül 05 — Cloud Object Store (3 ders / ~210 dk)#

  • 05.1 S3/GCS/Azure Blob best-practice
  • 05.2 Tier'lar ve maliyet
  • 05.3 Storage-compute ayrımı

Modül 06 — Modern OLAP Sorgu Motorları (5 ders / ~410 dk)#

  • 06.1 DuckDB
  • 06.2 Trino/Presto
  • 06.3 ClickHouse
  • 06.4 Polars + DataFusion
  • 06.5 Atölye: 1TB metadata üzerinde 4 motor benchmark

PART III — Batch Pipeline'lar ve Orkestrasyon (3 modül)#

Amaç: AI'a giden verinin %80'i hâlâ batch işleniyor. Bu part'ta endüstri-standart batch yığını.

Modül 07 — Apache Spark Derinine (6 ders / ~510 dk)#

  • 07.1 Mimari (driver, executor, Catalyst, Photon)
  • 07.2 DataFrame API
  • 07.3 Spark SQL + AQE
  • 07.4 Performance tuning (partitioning, skew, spill, shuffle)
  • 07.5 PySpark vs Scala
  • 07.6 Atölye: 100GB JSONL → temizlenmiş Parquet (LLM training prep)

Modül 08 — dbt + Analytics Engineering (4 ders / ~320 dk)#

  • 08.1 dbt felsefesi
  • 08.2 Models, refs, sources, seeds, snapshots, tests
  • 08.3 Jinja + macros
  • 08.4 Atölye: 3-katmanlı analytics warehouse

Modül 09 — Workflow Orkestrasyonu (5 ders / ~400 dk)#

  • 09.1 Orkestrasyon problemi
  • 09.2 Airflow derinine
  • 09.3 Dagster (software-defined assets)
  • 09.4 Prefect 3.x
  • 09.5 Atölye: Airflow ile batch + incremental + SLA pipeline

PART IV — Streaming ve Real-Time (2 modül)#

Amaç: Saniyeler içinde değişen veri akışları — fraud, agent, real-time RAG.

Modül 10 — Apache Kafka (5 ders / ~410 dk)#

  • 10.1 Broker, topic, partition, offset, replication
  • 10.2 Idempotent + transactional + exactly-once
  • 10.3 Kafka Connect
  • 10.4 Schema Registry + Avro/Protobuf evolution
  • 10.5 Atölye: Postgres → CDC → Kafka → S3 stream replication

Modül 11 — Stream Processing + CDC (5 ders / ~420 dk)#

  • 11.1 Event time, watermark, window
  • 11.2 Apache Flink
  • 11.3 Spark Structured Streaming
  • 11.4 Debezium + Materialize/RisingWave
  • 11.5 Atölye: AI inference log real-time aggregation + alert

PART V — LLM/AI için Özel Veri Mühendisliği (5 modül) ⭐#

Amaç: Kursun en farklılaştırıcı kısmı. Klasik veri kurslarında olmayan içerik burada.

Modül 12 — LLM Eğitim Verisi Toplama (5 ders / ~430 dk)#

  • 12.1 Common Crawl evreni (WARC, WET, WAT)
  • 12.2 Web crawling at scale (trafilatura, resiliparse)
  • 12.3 Açık dataset'ler (The Pile, RedPajama, FineWeb, Dolma)
  • 12.4 Lisans, telif, AI scraping etiği
  • 12.5 Atölye: 100GB CC shard'ından temiz Türkçe corpus

Modül 13 — Veri Temizliği ve Kalite Filtreleme (6 ders / ~520 dk)#

  • 13.1 Dil tespiti (fastText, CLD3, GlotLID)
  • 13.2 Heuristik filtreler
  • 13.3 Classifier-based kalite (FineWeb-Edu yaklaşımı)
  • 13.4 Toxicity + PII tespit
  • 13.5 Boilerplate/spam tespiti
  • 13.6 Atölye: Türkçe corpus 7-aşamalı kalite pipeline'ı

Modül 14 — Deduplication + Decontamination (5 ders / ~440 dk)#

  • 14.1 Hash tabanlı exact dedup
  • 14.2 MinHash + LSH (datatrove)
  • 14.3 Semantic dedup
  • 14.4 Test-set decontamination (BBH/MMLU/HumanEval)
  • 14.5 Atölye: 50GB corpus tam dedup pipeline

Modül 15 — Multi-modal Veri (5 ders / ~420 dk)#

  • 15.1 WebDataset, tar shard
  • 15.2 LAION, COYO image-text pair
  • 15.3 Ses (16/22kHz, VAD, transkript)
  • 15.4 Video (keyframe extraction)
  • 15.5 Atölye: 100K image-text WebDataset

Modül 16 — Tokenization (4 ders / ~320 dk)#

  • 16.1 BPE/Unigram/WordPiece (veri ekseninden)
  • 16.2 Tokenizer eğitim verisi seçimi
  • 16.3 SentencePiece + Tokenizers büyük-corpus pretokenization
  • 16.4 Atölye: 32K Türkçe-optimize BPE + sharded pretokenization

PART VI — Embedding ve Vector Infrastructure (3 modül)#

Amaç: RAG ve semantic search'ün kalbi.

Modül 17 — Embedding Üretimi (4 ders / ~330 dk)#

  • 17.1 Embedding modelleri + MTEB seçimi
  • 17.2 Batch embedding throughput (vLLM, TEI, Triton)
  • 17.3 Embedding versiyonlama
  • 17.4 Atölye: 10M doküman BGE-M3 pipeline (Spark + vLLM)

Modül 18 — Vector Database (5 ders / ~440 dk)#

  • 18.1 ANN algoritmaları (HNSW, IVF, PQ, ScaNN)
  • 18.2 pgvector
  • 18.3 Qdrant, Weaviate, Milvus, Pinecone
  • 18.4 LanceDB embedded
  • 18.5 Atölye: 100M vektör sharded Qdrant cluster

Modül 19 — Hybrid + Reranking (4 ders / ~340 dk)#

  • 19.1 BM25 + dense hybrid (RRF, weighted fusion)
  • 19.2 ColBERT late interaction
  • 19.3 Cross-encoder rerank
  • 19.4 Atölye: Türkçe hibrit arama, %93+ recall@10

PART VII — RAG için Veri Pipeline'ları (3 modül)#

Amaç: RAG'ın başarısı %90 chunking + parsing pipeline'ı.

Modül 20 — Chunking (4 ders / ~320 dk)#

  • 20.1 Fixed-size, semantic, agentic
  • 20.2 Hiyerarşik chunking
  • 20.3 Tablo/kod/görsel için özel chunking
  • 20.4 Atölye: Türkçe PDF 5-katmanlı chunking pipeline

Modül 21 — Doküman İşleme (5 ders / ~420 dk)#

  • 21.1 PDF parsing (Unstructured, PyMuPDF, Marker, Docling)
  • 21.2 OCR (PaddleOCR, Surya, dotsOCR)
  • 21.3 HTML/Markdown/Office
  • 21.4 Tablo çıkarma (Camelot, Tabula, LLM-assisted)
  • 21.5 Atölye: 10K PDF end-to-end ingestion

Modül 22 — Incremental Indexing + GraphRAG (4 ders / ~340 dk)#

  • 22.1 Incremental (yeni/değişen/silinen)
  • 22.2 Versiyonlama, tombstone
  • 22.3 Microsoft GraphRAG
  • 22.4 Atölye: Confluence-realtime RAG + GraphRAG katmanı

PART VIII — Feature Store ve ML Pipeline (2 modül)#

Modül 23 — Feature Store Mimarisi (5 ders / ~410 dk)#

  • 23.1 Online/offline parity + training-serving skew
  • 23.2 Feast derinine
  • 23.3 Tecton, Hopsworks, Databricks FS
  • 23.4 Point-in-time correctness
  • 23.5 Atölye: Feast + Redis + Snowflake end-to-end

Modül 24 — ML Training Data (4 ders / ~320 dk)#

  • 24.1 Data versioning (DVC, lakeFS, Pachyderm)
  • 24.2 Labeling (Label Studio, Argilla, Snorkel)
  • 24.3 Synthetic data (LLM-as-labeler)
  • 24.4 Atölye: Snapshot'lanabilir continual learning store

PART IX — Kalite, Lineage, Gözlemlenebilirlik, Gizlilik (3 modül)#

Modül 25 — Veri Kalitesi (5 ders / ~400 dk)#

  • 25.1 Schema validation (GE, Pandera, Pydantic)
  • 25.2 dbt tests + Elementary
  • 25.3 Data contracts
  • 25.4 Soda Core
  • 25.5 Atölye: 7-katmanlı kalite + CI/CD

Modül 26 — Lineage + Catalog + Observability (5 ders / ~390 dk)#

  • 26.1 OpenLineage + Marquez
  • 26.2 DataHub, OpenMetadata, Amundsen
  • 26.3 Column-level lineage
  • 26.4 Volume/freshness/schema/distribution anomalileri
  • 26.5 Atölye: Airflow + dbt + Spark unified lineage + Slack alert

Modül 27 — PII + KVKK + AI Act (4 ders / ~330 dk)#

  • 27.1 Presidio + NER PII pipeline
  • 27.2 Pseudonymization, k-anonymity, differential privacy
  • 27.3 KVKK + EU AI Act pratik etkileri
  • 27.4 Atölye: KVKK-uyumlu ingestion + right-to-be-forgotten

PART X — Production, Maliyet, Ölçek (2 modül)#

Modül 28 — Maliyet Mühendisliği (4 ders / ~330 dk)#

  • 28.1 Storage maliyeti
  • 28.2 Compute maliyeti
  • 28.3 LLM API maliyeti (cache/batch/compression/distillation)
  • 28.4 Atölye: 20K20K → 3K cost cut vaka

Modül 29 — Performance + IaC (4 ders / ~340 dk)#

  • 29.1 Sharding/partitioning/bucketing
  • 29.2 Z-order, liquid clustering, file compaction
  • 29.3 Terraform + Pulumi data platform
  • 29.4 Atölye: 10TB tabloda 100x speedup + tek komutla deploy

PART XI — Capstone Projeler ve Kapanış (4 modül)#

Bu part'ta kursun tamamını birleştiren 3 büyük proje yapacağız. Her biri 6–10 saatlik bir yapım — sonunda GitHub portfolyona koyabileceğin, mülakatta detayını anlatabileceğin somut iş çıkıyor.

Modül 30 — Capstone 1: LLM Pretrain Corpus (6 ders / ~600 dk)#

Senaryo: Türkçe-optimize bir LLM pretrain corpus üretmek. Pipeline: Common Crawl → Türkçe filtreleme → kalite scoring → MinHash dedup → decontamination → tokenization → sharded WebDataset. Çıktı: 30–50GB temizlenmiş Türkçe corpus + custom BPE tokenizer + HuggingFace-uyumlu dataset. Tools: PySpark, datatrove, SentencePiece, OpenLineage.

Modül 31 — Capstone 2: Production RAG Platform (6 ders / ~720 dk)#

Senaryo: Çok kaynaklı (PDF, web, Confluence, DB), çok kiracılı (multi-tenant), monitored RAG infrastructure. Pipeline: Source connector → Unstructured/Marker parsing → Türkçe-optimize chunking → BGE-M3 embedding (batch) → Qdrant (sharded) → hybrid search + reranker → Langfuse observability. Çıktı: REST API, Streamlit demo, Grafana dashboard, end-to-end traceable system. Tools: Spark, vLLM, Qdrant, Airflow, Langfuse, OpenLineage.

Modül 32 — Capstone 3: Real-Time Feature Store (5 ders / ~540 dk)#

Senaryo: E-ticarette gerçek-zamanlı fraud detection + personalization için feature store. Pipeline: CDC (Postgres → Debezium → Kafka) → Flink streaming features → Iceberg (batch) + Redis (online) → Feast registry → ML serving. Çıktı: Online/offline parity'li, point-in-time correct, latency p95 < 10ms feature store. Tools: Kafka, Flink, Iceberg, Redis, Feast, Great Expectations.

Modül 33 — Kapanış (2 ders / ~120 dk)#

  • 33.1 AI Data Engineer kariyer haritası — Junior'dan Staff'a
  • 33.2 Sertifika + açık-kaynak + portfolyo + mülakat hazırlığı
🎯 Capstone vaadi
Bu 3 capstone'u tamamladığında, CV'nde göstereceğin gerçek iş olur. "AI veri pipeline'ı kurabilir mi?" sorusuna mülakatta cevap yerine GitHub linki verebilirsin. Her capstone'un kendi public README'si, kendi mimari diyagramı, kendi demo video kaydı olacak.

Toplam İstatistikler#

MetrikDeğer
Part11
Modül34
Ders~150
Toplam okuma süresi~12.500 dakika (~208 saat)
Atölye sayısı30+
Capstone proje3 büyük
Toplam runnable kod200+
DillerTürkçe (TR) + İngilizce (EN)
ErişimTamamen ücretsiz
Önerilen tempo: Haftada 8–10 saat → ~6 aylık tam yolculuk.

Kursta Nasıl Hareket Edeceksin?#

Sıralı git#

Part I → Part XI sırasında ilerle. Önceki modülün atölyesini tamamlamadan sonrakine geçme. Sıkışıyorsan bir adım geri dön ve eksik temeli kapat.

Atölyeleri atlama#

"Bunu okudum, atlayayım" tuzağına düşme. Atölye = elinin tuş takımıyla kod yazma + hata ayıklama. Sadece okumayla yetenek gelmiyor.

Capstone'ları zamana yay#

Capstone'u 1–2 günde sıkıştırmak yerine 1 haftalık periyoda yay. Sorularını topla, kursun ilerideki modüllerine sor, dön gel. Capstone üzerinde yavaş kalmak iyi.

Tartış, soru sor, yaz#

Her dersin altında yorum bölümü açacağız. Aklında soru kalırsa orada sor. Başka bir öğrenciye yardım edebileceğin yerleri de gör — öğretmek, öğrenmenin en hızlı yolu.

Notlar al, paylaş#

Modül sonunda kendi özet notlarını yaz, bir blog post'a çevir, LinkedIn'e koy. Yazarak öğrenmek, sadece okuyarak öğrenmenin 3 katı kalıcı.

Bu Kurs NE DEĞİL?#

Yanlış beklentiyle başlamayasın diye netleştireyim:
  • LLM eğitim kursu değil. Modelin nasıl eğitildiğini değil, eğitime giden ve eğitimden çıkan verinin nasıl yönetildiğini öğretiyor.
  • PyTorch/TensorFlow eğitimi değil. Tek bir DL framework satırı çoğunlukla yazmayacağız.
  • LangChain/LlamaIndex tutorial'ı değil. Bu tool'ları gerektiğinde göstereceğim, ama altlarında ne olduğunu da göstereceğim —
    pip install langchain
    ile başlayan kurslardan farkımız bu.
  • Akademik bir veritabanı kursu değil. Üniversite müfredatlarındaki "İlişkisel cebir + tüpler" odaklı yaklaşım yok. Pratik üzerine kurulmuş.
  • Tool ezberleme kursu değil. Tek bir vendor (örn. Databricks veya AWS) odaklı değil. Açık-kaynak öncelikli, vendor-neutral.

Bir sonraki ders: Atölyeyi açıyoruz#

Bir sonraki derste (00.3) artık konuşmayı bırakıp kod yazmaya başlıyoruz. Bilgisayarına profesyonel bir lokal stack kuracağız:
  • uv ile Python 3.12 environment
  • Docker Compose ile servis yığını:
    • Postgres 16 (+ pgvector)
    • MinIO (S3-uyumlu object store)
    • Apache Kafka + Schema Registry
    • Apache Spark (single-node cluster)
    • JupyterLab + DuckDB
  • VS Code + Cursor setup
  • İlk "hello pipeline" çalıştırması
Bu kurulum kursun tamamı boyunca kullanılacak. Tek seferde hallediyoruz. Hazır mısın?

Frequently Asked Questions

Yes. Each lesson has TR and EN versions (EN rolling out). Default is TR; use /en/learn/ for English.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content