LLM Mühendisliği
LLM mühendisliği yeni bir disiplin: ML engineer, data scientist, AI researcher ve MLOps arasındaki konumu, yetenek matrisi, kıdem seviyeleri, küresel ve Türkiye maaş aralıkları, günlük iş akışı, kariyer pivotları.
İçindekiler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
- 1
LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası
LLM mühendisliği yeni bir disiplin: ML engineer, data scientist, AI researcher ve MLOps arasındaki konumu, yetenek matrisi, kıdem seviyeleri, küresel ve Türkiye maaş aralıkları, günlük iş akışı, kariyer pivotları.
- 2
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti
Bu kursun arkasındaki 8 pedagojik ilke, 12 part / 76 modül mimarisi, prerequisite grafiği, Karpathy & Stanford CS336 & Hamel Husain ile karşılaştırma, 4 farklı çalışma modu, 3 sertifika seviyesi.
- 3
Atölye Kurulumu: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight
Sıfırdan modern Python + PyTorch + CUDA + Triton + FlashAttention + Nsight kurulumu. Linux, WSL2, macOS (Apple Silicon), Windows native — her platforma adım adım. uv paket yöneticisi neden pip/conda'dan üstün, sanity test.
- 4
Cloud Hesaplar Atlası: HuggingFace, OpenAI, Anthropic, Together, Modal, Runpod, Lambda — Hangisi Niye?
Bir LLM mühendisinin 8 ay boyunca 12+ cloud hesabı yönetmesi gerekir. Hangisi niye, fiyatlandırma modelleri, API anahtarı güvenliği, ücretsiz kredi avı, çoklu sağlayıcı stratejisi, Türkiye için ödeme/vergi pratikleri.
- 5
Maliyet ve Etik Sözleşmesi: 8 Ay Bütçesi, Token Economics, AI Mühendisinin Ahlakı
Kursun toplam tahmini maliyeti üç senaryoda, token economics 101, bütçe alarmı kurma, AI mühendisinin etik sözleşmesi: telif hakları, KVKK, EU AI Act, akademik dürüstlük, açık-kaynak katkı, çevre etkisi.
Modül 1: AI Engineer'ın Matematiksel Cephaneliği
- 1
Lineer Cebir Refresher: Vektör, Matris, Broadcasting, Einsum — LLM Mühendisinin Matematiksel Dili
Vektör/matris/tensor sezgisi, broadcasting kuralları, dot product, matris çarpımının üç farklı bakış açısı, einsum notasyonu, norm aileleri, attention'da Q@K^T çarpımının matematiksel anatomisi.
- 2
Matris Ayrıştırmaları: Eigendecomposition, SVD, PCA ve LoRA'nın Sırrı
Bir matrisi 'DNA'sına' ayırma sanatı. Eigendecomposition (özdeğer) ve SVD (tekil değer) ayrıştırmaları, PCA'nın SVD ile sıfırdan inşası, LoRA'nın matematiksel temeli — neden düşük-rank güncelleme yeter? Embedding compression pratiği.
- 3
Türev, Gradient ve Matrix Calculus: Backprop'un Matematiği Sıfırdan
Skalerden vektöre, vektörden matrise türev. Jacobian, Hessian, chain rule, numerator vs denominator layout. Softmax + cross-entropy'nin türevinin neden zarif olduğu. Backprop'un manuel hesabıyla PyTorch autograd karşılaştırması.
- 4
Chain Rule ve Backpropagation: Mini-Autograd'ı Sıfırdan İnşa Et (Karpathy micrograd Türkçe)
Karpathy'nin micrograd'ını Türkçe sıfırdan inşa etmek — 200 satır PyTorch-benzeri otomatik türev motoru. Computational graph, topological sort, operator overloading, _backward closures, gradient accumulation. Sonunda bir MLP'yi eğit.
- 5
Olasılık Temelleri: Joint, Marginal, Conditional ve Bayes — LLM'in Düşünme Dili
LLM'ler özünde conditional probability makineleridir. P(x_t | x_<t)'nin matematiği, joint/marginal/conditional ilişkisi, bağımsızlık, Bayes teoreminin gücü, dağılım aileleri (Bernoulli, Categorical, Gaussian), expectation, variance — sampling (temperature, top-k, top-p) buradan başlar.
- 6
MLE, MAP, Posterior: Modelleme Dilinin Grameri — Pretrain Loss'un Matematiksel Kökü
LLM pretrain loss'unun bir Maximum Likelihood Estimation (MLE) objective olduğunu, fine-tuning'in matematiksel olarak Bayesian güncelleme olduğunu, regularization'ın MAP'a karşılık geldiğini gözden geçir. Cross-entropy = NLL ilişkisi, prior seçimi, conjugate priors.
- 7
Entropi, Cross-Entropy, KL Divergence ve Mutual Information: Bilgi Teorisinin LLM'deki Hayatı
Shannon entropisi, cross-entropy'nin LLM loss olarak gerçek anlamı, KL divergence'ın asimetrisi ve forward vs reverse KL (mode covering vs mode seeking), RLHF/DPO'da KL constraint'in rolü, JS ve Wasserstein, mutual information, knowledge distillation matematik.
- 8
Optimization: SGD'den AdamW'a, Lion'a, Muon'a — Modern LLM'in Tüm Optimizer'ları
Gradient descent ailesinin geçmişi ve geleceği: GD, SGD, Momentum (Heavy ball, Nesterov), AdaGrad, RMSProp, Adam, AdamW, Lion, Muon. Learning rate schedules: linear warmup + cosine decay. Loss landscape: sharp vs flat minima.
- 9
Numerik Stabilite: Log-Sum-Exp, FP16 Tuzakları, NaN Avı — LLM Eğitiminin Gizli Saatleri
Floating point representation (FP32, FP16, BF16, FP8), overflow/underflow/NaN avı, log-sum-exp trick, softmax sayısal stabilitesi, mixed precision training (autocast + GradScaler), pretrain loss spike'larının sayısal kökenleri.
- 10
Bilgi Geometrisi ve Manifold Sezgisi: Embedding'lerin Niçin Anlamlı Olduğu
Embedding space'in geometrik anatomisi: manifold hipotezi, t-SNE/UMAP görselleştirme, cosine vs Euclidean metric, Riemannian geometri sezgisi, Fisher information, natural gradient, embedding rotation invariance. Bu dersle Modül 1'i tamamlıyoruz.
Modül 2: PyTorch'tan Önce — NumPy ve Otomatik Türev Sıfırdan
- 1
NumPy Tensor Mühendisliği: Strides, View, Broadcasting ve Bellek Düzeninin Anatomisi
Bir tensor'un bellek anatomisi: row-major C vs column-major F, strides, view vs copy, contiguous, fancy indexing, advanced broadcasting kuralları, BLAS arka uç sezgisi, einsum vs einops. Performans kritik kodun temeli.
- 2
Computational Graph Derinden: DAG Yapısı, Topological Sort, Eager vs Static Paradigma
Autograd'in arkasındaki graph yapısının derinlemesine analizi: DAG anatomisi, in-degree/out-degree, topological sort algoritmaları (DFS post-order, Kahn's), eager (PyTorch) vs static (TF1, JAX, XLA) graph paradigmaları, graph optimization (fusion, dead code elimination).
- 3
Reverse-mode vs Forward-mode Autodiff: JVP, VJP, Dual Numbers ve LLM'de Hangisi Ne Zaman
Otomatik türevin iki temel modu: forward-mode (Jacobian-vector product, dual numbers) ve reverse-mode (vector-Jacobian product, backprop). Matematiksel karşılaştırma, hesaplama karmaşıklığı, JAX'te jvp/vjp/grad/hessian, LLM'de hangi senaryo hangi modu gerektirir.
- 4
NumPy ile Tensor Autograd Sıfırdan: Broadcasting-Aware Mini-Tinygrad İnşası
1.4'teki skaler micrograd'ı tensor seviyesine yükselt: NumPy üzerinde Tensor class, broadcasting-aware backward (sum-along-broadcast-dims trick), matmul/conv/softmax operatörleri, transpose ve view'ın gradient akışı, ~500 satırda PyTorch-benzeri eğitim motoru.
- 5
PyTorch vs JAX vs torch.compile: Eager, Static ve Hybrid'in Pratik Karşılaştırması
2.2'deki teorik fark → pratik benchmark. Aynı transformer bloğunu PyTorch eager, JAX jit, torch.compile (reduce-overhead, max-autotune) modlarında implement et. Compile time, throughput, memory, debug deneyimi yan yana. 2026'da hangi framework hangi senaryoda?
- 6
Custom autograd.Function ve PyTorch Internals: Kendi Gradient'lerini Yaz
PyTorch autograd'ı extend etmek: torch.autograd.Function subclass'ları, custom forward/backward, ctx ile state saklama, gradcheck doğrulaması, custom CUDA/Triton kernel wrap (preview), FlashAttention block matmul mini-implementasyon, second-order gradients ve gradgradcheck.
Modül 3: Derin Öğrenmenin Felsefi Tarihi
- 1
Yapay Sinir Ağlarının 70 Yıllık Yolculuğu: McCulloch-Pitts'ten GPT-5'e
Derin öğrenmenin tarihi: 1943 McCulloch-Pitts nöronları, 1958 Perceptron, 1986 backprop popülerizasyonu, 1989 LeCun ZIP-code CNN, 1997 LSTM, 2006 Hinton'un DBN paper'ı, 2012 AlexNet, 2017 Transformer, 2022 ChatGPT, 2026 GPT-5. Her milestone'un teknik ve sosyal bağlamı.
- 2
Connectionism vs Symbolic: Bitmeyen Tartışmanın 60 Yılı ve LLM'lerin Yeri
Symbolic AI (LISP, expert systems, mantık programlama) ile connectionism (neural networks) arasındaki 60 yıllık felsefi savaş. Bitter Lesson (Sutton 2019), neuro-symbolic hibridler, chain-of-thought ve tool use'un symbolic manipülasyon mu olduğu, LLM reasoning'in geleceği.
- 3
Vision'da Big Bang: AlexNet, VGG, Inception, ResNet, BatchNorm — Modern Mimari Bileşenlerinin Doğuşu
2012-2017 vision devrimi: AlexNet'in 5 yeniliği, VGG'nin uniformity prensibi, Inception'ın multi-scale yaklaşımı, ResNet'in skip connection devrimi, BatchNorm'un internal covariate shift cevabı. Transformer'a giden mimari mirasın detaylı analizi.
- 4
Sequence Modelleme: RNN, LSTM, GRU'dan Encoder-Decoder ve Attention'a Giden Yol
NLP'nin 1990-2017 evrimi: vanilla RNN'in vanishing gradient sorunu, LSTM (Hochreiter 1997) ve GRU çözümü, Seq2Seq (Sutskever 2014), Bahdanau ve Luong attention mekanizmaları, ELMo ile contextual embedding'lerin doğuşu. Bu yolculuk 2017 Transformer'ın zeminini hazırladı.
- 5
Transformer Sonrası 8 Yıl: 'Attention Is All You Need'ten GPT-5'e Tam Anatomi
Vaswani 2017'den 2026 GPT-5'e transformer'ın 8 yıllık evrim haritası: BERT, GPT serisi, T5, BART, Llama, Claude, DeepSeek, Mistral, Qwen. Pre-training paradigmasının yerleşmesi, scaling laws, RLHF, multimodal yetenek, reasoning model'lar.
Modül 4: LLM'lerin Zihinsel Modeli
- 1
LLM Bir Conditional Probability Machine: P(x_t | x_<t) ve Bunun Sonuçları
Bir LLM'in özünde ne olduğunu netleştir: conditional probability dağılımı üretici machine. Autoregressive generation, joint probability'nin chain rule ile decomposition'ı, perplexity ölçümünün gerçek anlamı, neden 'hallucination' kaçınılmaz, calibration kavramı, logit ve probability arasındaki ilişki.
- 2
Tokenization Zihinsel Modelin Parçası: Token Ekonomisi, Türkçe Tuzakları ve Glitch Tokens
Token sınırlarının tahminleri nasıl şekillendirdiği, Türkçe gibi morfolojik zengin dillerde token ekonomisinin etkisi, SolidGoldMagikarp gibi 'glitch tokens', leading whitespace problemi, prompt engineering'in token-level detayı. Modül 6 (Tokenization Mikro-Cerrahisi) için pratik zemin.
- 3
Sampling Sanatı Derinlemesine: Greedy, Beam, Top-K, Top-P, Min-P, DRY, Tail-Free — Hepsi Production'da
Production-level sampling stratejileri: temperature/top-k/top-p/min-p/typical-p/tail-free/DRY repetition penalty, beam search ve diverse beam, contrastive decoding, speculative sampling, reasoning model'larda sampling, structured output ile sampling, multi-sample self-consistency.
- 4
Logit Gözlemciliği: logprobs ile Modelin Zihnini Okuma — Production Diagnostics
logprobs API'sının production-grade kullanımı: confidence-based filtering, hallucination detection, prompt diagnostics, model probing, MCQ scoring, semantic confidence, anomaly detection. logits/probability/log-probability dönüşümleri, token-level entropy, ekstraksiyon teknikleri.
- 5
In-Context Learning'in Matematiği: Implicit Bayesian Inference ve Induction Heads
GPT-3'ün few-shot learning yeteneğinin matematiksel açıklamaları: implicit Bayesian inference (Xie 2022), induction heads mechanism (Olsson 2022), task identification ve learning algorithm emergence. Prompt'a örnek vermek niye çalışıyor, niye yeterince büyük modellerde, niye OOD'da çuvallıyor.
- 6
Scaling Laws Sezgisi: Kaplan, Chinchilla, Post-Chinchilla — LLM Eğitiminin Matematiksel Planlaması
LLM eğitiminin matematiksel temellerinin tam analizi: Kaplan 2020 power laws, Chinchilla 2022 compute-optimal teoremi, post-Chinchilla over-training (Llama 3 yaklaşımı), inference-aware scaling (Sardana 2023), μP hyperparameter transfer, FLOP hesaplama, MFU optimization.
- 7
Emergent Capabilities: 'Sudden' Yetenekler Gerçek mi, Ölçüm Artefaktı mı?
GPT-3 paper'ının 'emergent abilities' iddiası, Wei 2022'nin systematic çalışması, Schaeffer 2023'ün 'Are Emergent Abilities a Mirage?' meydan okuması. Threshold effects, metric design, smooth vs discontinuous capabilities. Hangi yetenek gerçekten emergent, hangisi ölçüm artefaktı?
- 8
Memorization vs Generalization: Paraphrase Testleri ve LLM'in Gerçek Anlayışı
LLM training corpus'u 'ezberliyor' mu yoksa 'genelleyerek öğreniyor' mu? Exact match tests, paraphrase resistance, contamination detection, membership inference. Eval'de memorization detection, training data extraction risks, privacy implications.
Modül 5: PyTorch Mühendisliği — Engineer-Grade
- 1
torch.compile ve torch.fx: Graph Capture, JIT Compilation ve Production Optimization
PyTorch 2.0+'ın game-changer feature'ı torch.compile derinlemesine: TorchDynamo + TorchInductor + Triton akışı, FX graph manipulation, compile modes (default/reduce-overhead/max-autotune), graph breaks debugging, dynamic shapes, production trade-off'lar. Modül 2.5'in production extension'ı.
- 2
Mixed Precision Training Derinlemesine: BF16, FP16, FP8, autocast, GradScaler — Production Patterns
Modül 1.9'da numerik stabilite temellerini gördük. Bu derste production mixed precision: autocast region tasarımı, GradScaler dinamikleri, FP8 H100/B200 native training (DeepSeek-V3 yöntemi), gradient norm monitoring, loss spike investigation, BF16 vs FP16 production karar matrisi.
- 3
Memory Profiling: torch.profiler, Nsight Systems, OOM Debugging — Production GPU Memory Yönetimi
GPU memory'sinin gizli yaşamı: aktivasyon vs gradient vs optimizer state breakdown, torch.profiler ile memory snapshot, Nsight Systems timeline analizi, OOM root cause analysis, activation checkpointing, gradient accumulation, fragmentation çözümleri.
- 4
CUDA Streams, Events ve NCCL Temelleri: Multi-GPU Communication'ın Alt Katmanı
GPU'da concurrency: streams ile parallel kernel execution, events ile fine-grained synchronization, NCCL collective operations (allreduce, broadcast, all-gather, reduce-scatter). Distributed training'in altyapı katmanı. Modül 17 (Distributed Training) için ön hazırlık.
- 5
Triton ile Custom GPU Kernels: Softmax, Matmul, FlashAttention Mini Sıfırdan
Triton'un Python syntax ile GPU programming sırrı: programming model (program_id, block_size, autotune), softmax kernel sıfırdan, matmul tiling, FlashAttention'ın block-wise mini implementasyonu, performans tuning. Modül 37 (CUDA/Triton derin dalış) için pratik temel.
- 6
torch.distributed Derinleştirilmiş: DDP, FSDP, ZeRO Stages — Production Distributed Training
5.4'te NCCL temellerini gördük. Şimdi production distributed training stack: DDP gradient bucketing + overlap, FSDP shard strategies (FULL_SHARD, SHARD_GRAD_OP, HYBRID_SHARD), DeepSpeed ZeRO Stage 1/2/3 karşılaştırma, hybrid 3D parallelism. Modül 17 için son köprü.
- 7
Debug Arsenal: register_hook, Anomaly Mode, torch.utils.benchmark — Production Debugging Toolkit
Production PyTorch'ta iş bozulduğunda toolkit: forward/backward hooks, anomaly detection mode, deterministic training, torch.utils.benchmark precise timing, repro pattern'leri, NaN avı systematik, gradient inspection, model debugging stratejileri.
- 8
Production Engineering: Reproducibility, CI/CD for ML, Versioning ve Deployment Patterns
PyTorch mühendisliğinin son dersi — production workflow patterns: ML CI/CD pipelines, eval harness CI'a integration, model + prompt + data versioning (DVC, MLflow, HF Hub), canary deployment, A/B testing, rollback strategies, drift monitoring, KVKK uyumlu deploy. Part I'in kapanışı.
Modül 6: Tokenization Mikro-Cerrahisi
- 1
Karakter, Sözcük, Subword: Tokenization Tasarım Baskıları ve Karar Matrisi
Tokenization tasarım uzayı: karakter-level (UTF-8, byte), sözcük-level (whitespace, morfoloji), subword (BPE, WordPiece, Unigram). Her seçimin matematiksel ve pragmatik trade-off'ları, OOV problemi, vocabulary size karar matrisi, multilingual zorlukları, Türkçe karakteristikleri.
- 2
BPE Algoritması: Sennrich 2016 Satır Satır — Pseudocode, Complexity, Edge Cases
BPE'nin matematik anatomi. Sennrich 2016 paper'ı satır satır: pre-tokenization, byte-pair merge counting, greedy merge selection, vocabulary inşası, encoding logic, complexity analysis (O(N·V)), edge cases (Unicode, whitespace, special tokens). Modül 6.3'te implement öncesi tam kavrama.
- 3
BPE'yi 200 Satırda Sıfırdan Yaz: Training + Encoding + Decoding + Türkçe Corpus
Karpathy minbpe stil sıfırdan implementation: pure Python BPE training (Sennrich algorithm), encoding/decoding, regex pre-tokenization, byte-level extension, Türkçe corpus üzerinde train + Trendyol-LLM ile karşılaştırma. Modern LLM tokenizer'larını pratik anlama.
- 4
WordPiece (BERT): Likelihood-Based Merges ve BPE'den Sessiz Farklılıklar
WordPiece algoritması: Schuster & Nakajima 2012'den BERT 2018'e yolculuk. Frequency yerine likelihood-based merge skoru, ##suffix prefix konvansiyonu, [UNK]/[CLS]/[SEP] special tokens, BPE'den sessiz ama kritik farklılıklar. HuggingFace Tokenizers ile pratik training, BERT-base-Turkish-cased örneği, vocab tasarımı.
- 5
SentencePiece + Unigram LM (Kudo 2018): Olasılıksal Tokenizasyon ve Subword Regularization
SentencePiece framework + Unigram language model algoritması. Kudo 2018'in olasılıksal yaklaşımı: büyük vocab'tan başla, EM ile budama. Viterbi forward encoding, subword regularization, ▁ whitespace-as-character. Llama, T5, Mistral'in tercihi. Türkçe ve multilingual avantajları.
- 6
GPT-2/GPT-4 Byte-Level BPE + tiktoken Regex: Modern Standardın Anatomisi
GPT-2 byte-level BPE'nin doğuşu (Radford 2019), regex pre-tokenizer'ın sırrı, GPT-3.5 cl100k, GPT-4o o200k, Llama-3'ün tiktoken'a geri dönüşü. tiktoken Rust performansı, prompt engineering için token counting, Türkçe maliyet ekonomisi, encoding rejimlerinin kıyaslaması.
- 7
Special Tokens + ChatML + Chat Templates: Konuşan LLM'in Tokenization Anatomisi
Chat formatlarının doğuşu (ChatGPT Mart 2022), ChatML resmi spec, <|im_start|>/<|im_end|>/<|im_sep|> token anatomisi, Llama-3 Instruct + Mistral [INST] + Claude Messages API + Gemini formatları, HuggingFace chat_template Jinja2, system prompt placement, tool use tokenları, prompt injection güvenliği, multi-turn token ekonomisi, Türkçe chat pratiği.
- 8
HuggingFace Tokenizers Rust + Production Pipeline: Üretim-Kalite Tokenizer'ı Sıfırdan Eğitmek
HuggingFace tokenizers crate'inin Rust mimarisi, 6 katmanlı pipeline (Normalizer → PreTokenizer → Model → PostProcessor → Decoder → Trainer), tokenizer.json format anatomisi, Türkçe production-grade end-to-end training, Rust internals (parallel processing, SIMD, ahash, mmap), tiktoken/SentencePiece conversion, threading + caching + FFI overhead, benchmarklar.
- 9
Tokenizer Evaluation: Fertility, Compression Ratio, Downstream Impact ve Bilgi Teorik Ölçümler
Tokenizer kalitesini ölçen tüm metriklerin derin anatomisi: fertility (token/word), compression ratio (bytes/token), OOV rate, bits-per-character (BPC), perplexity'ye etki, cross-lingual fertility, downstream task impact, vocab coverage, A/B testing protokolleri, Türkçe-spesifik metrikler, maliyet 'vergi' analizi, capstone evaluation framework.
- 10
Capstone TurkTokenizer-tr: Türkçe Production-Grade Tokenizer Eğit, Değerlendir ve HuggingFace Hub'a Yayınla
Modül 6'nın eseri: TurkTokenizer-tr 32K vocab Türkçe BPE'i sıfırdan eğit, 6.9'un evaluation framework'ü ile değerlendir, model card yaz, license seç, HuggingFace Hub'a publish et. Corpus curation (Wikipedia + OSCAR + news + literature + code), cleaning pipeline, chat template, production integration, maintenance roadmap. Modül 6.1-6.9'un sentezi, gerçek dünya artefakt.
Modül 7: Embedding Katmanı — Anlamın Vektör Uzayı
- 1
Embedding Nedir? Token ID'den Anlam Vektörüne Köprü — Discrete'den Continuous'a Devrim
Embedding'in matematiksel anatomisi: integer token ID'sini d-dimensional dense vector'e mapping. Vocab × d_model matrisi. One-hot encoding'in dejenere durumu. Niye semantic vector space çalışıyor (distributional hypothesis, Firth 1957). Embedding'in 'meaning emerges from co-occurrence' felsefesi. Pre-NN dönem (LSA, LSI) vs neural era (word2vec → BERT → LLM). Türkçe için pratik anlam.
- 2
Word2Vec Satır Satır: Mikolov 2013'ün Skip-Gram + CBOW + Negative Sampling Anatomisi
Mikolov 2013 paper'ının satır satır anatomi: Skip-Gram vs CBOW mimari farkları, softmax computational bottleneck, hierarchical softmax (Huffman tree), negative sampling (Mikolov 2013b), subsampling, dynamic window. Pure Python implementation 100 satırda. Gensim ile Türkçe word2vec eğitim demosu. Modern LLM embedding ile karşılaştırma.
- 3
GloVe + FastText: Global Co-Occurrence Matrisi + Subword N-Gram Genişletme
GloVe (Pennington 2014) global co-occurrence matrisi yaklaşımı vs Word2Vec local window: matematiksel formülasyon, weighted least squares objective, X_ij interpretation. FastText (Bojanowski 2017) subword n-gram embedding: 'merhaba' = 'mer' + 'erh' + ... OOV problem çözümü, Türkçe morfolojik diller için ideal. Performance karşılaştırması, hangi senaryoda hangisi.
- 4
Modern LLM Embedding Katmanı + Embedding Tying: Input/Output Paylaşımı ve Scaling
Modern transformer mimarisinde embedding katmanı: nn.Embedding initialization (Llama-3 style), embedding tying (input/output paylaşımı) — matematiksel justification ve memory savings, transformer pre-layernorm öncesi embedding scaling (sqrt(d_model) ya da değil), RoPE öncesi pozisyon ekleme yok, multimodal embeddings (vision + audio tokens). Llama-3, GPT-4o, Claude-3 mimari farkları.
- 5
Embedding Geometry: Cosine Similarity, Euclidean Distance, Isotropy ve BERTology Bulguları
Embedding vector space'in topolojisi: cosine similarity vs Euclidean distance vs dot product (hangisi ne zaman, matematiksel ilişkiler), isotropy (vectors balanced across directions, Gao 2019 'representation degeneration'), anisotropy problemi BERT/GPT embeddings'de, mitigation (whitening, normalization). BERTology bulguları: hangi layer'da hangi bilgi (Rogers 2020). Türkçe için pratik analiz.
- 6
Capstone Modül 7: Türkçe Semantic Search Sistemi — sentence-transformers + FAISS + Mini-RAG
Modül 7'nin capstone projesi: Türkçe semantic search sistemi sıfırdan. sentence-transformers Türkçe model seçimi, FAISS vector index, production-grade query pipeline, mini-RAG architecture (retriever + generator), benchmark + deployment. Embedding teorisinin pratik uygulaması.
Modül 8: Attention Mathematics — Transformer'ın Kalbi
- 1
Scaled Dot-Product Attention: Vaswani 2017'nin Kalbi Satır Satır — Query, Key, Value Üçlüsünün Anatomisi
Transformer'ın temel taşı — scaled dot-product attention'ın matematiksel anatomisi: Query/Key/Value üçlüsü, dot product similarity, softmax normalize, sqrt(d_k) scaling justification, causal mask (autoregressive), attention weights interpretation. PyTorch implementation, FLOP analizi, numerical stability concerns, Türkçe örneklerle attention pattern görselleştirme.
- 2
Multi-Head Attention: N Paralel Head, Concat + Projection, Grouped-Query Attention (GQA), Multi-Query Attention (MQA)
Tek attention'ı niye N paralel head'e bölüyoruz: her head'in farklı pattern öğrenme kapasitesi (syntactic, semantic, positional). Concat + output projection mimari, head pruning empirical bulgular, Llama-3 grouped-query attention (GQA), Mistral multi-query attention (MQA), head visualization Türkçe örneklerle.
- 3
FlashAttention: IO-Aware Attention — Dao 2022 Algoritması ve Modern Implementations
FlashAttention'ın matematiksel ve sistemsel anatomi: niye standard attention memory-bound, GPU memory hierarchy (HBM vs SRAM), tile-based computation, online softmax, recomputation backward. FlashAttention-1 (Dao 2022), FlashAttention-2, FlashAttention-3 evrimi. PyTorch flash_attn library, performance benchmarks, long context enablement.
- 4
KV Cache + Paged Attention: Inference Serving Optimization — vLLM Paged Attention ve Continuous Batching
LLM inference serving optimization: KV cache anatomy (prefill vs decode phases), memory fragmentation problem, paged attention (vLLM 2023 Kwon), continuous batching, dynamic memory allocation. Llama-3 production serving math: throughput, latency trade-offs, multi-tenancy.
- 5
Capstone Modül 8: Quadratic Attention'a Alternatifler — Linear Attention, RetNet, Mamba (State Space Models)
Modül 8 capstone: quadratic attention'ın alternatifleri. Linear Attention (Katharopoulos 2020) — kernel trick + recurrent form. RetNet (Sun 2023) — retention mechanism Microsoft. Mamba (Gu Dao 2023) — selective state space models. Hangi sub-quadratic mimari hangi senaryo için, GPT-4 vs Mamba karşılaştırma, hibrit modeller (Jamba), gelecek trendleri.
Modül 9: Position Encoding — Sıraya İçkin Anlam
- 1
Position Encoding Neden Zorunlu? Sinusoidal vs Learned Absolute Position — Vaswani 2017'den GPT-2'ye Klasik Yaklaşımlar
Attention'ın permutation-invariance problemi: 'Köpek kediyi ısırdı' ile 'Kedi köpeği ısırdı' aynı! Position encoding'in zorunluluğu. Vaswani 2017 sinusoidal formülü (sin/cos farklı frequency'lerde), generalization argümanı (longer sequences). GPT-2 learned absolute position embedding, max_position_embeddings sınırı. Trade-offs, Türkçe sözdizimi için pratik anlamı.
- 2
RoPE Derinlemesine: Rotary Position Embedding'in Matematiksel Anatomisi — Su 2021'den Llama-3'e
RoPE'in matematiksel anatomisi: kompleks sayı rotation interpretation, niye Q ve K'ye uygulanır, relative position implicit derivation. Llama-3 RoPE implementation satır satır, base frequency 10000, pair-wise rotation. PyTorch implementation, RoPE vs sinusoidal/learned karşılaştırma, modern modellerin yaygın tercih sebebi.
- 3
ALiBi: Attention with Linear Biases — Press 2021'in Sade Çözümü ve Extrapolation Avantajı
ALiBi (Press 2021): position embedding kullanmadan attention score'a linear bias ekleyerek pozisyon bilgisini inject etmek. Math: attention[i,j] += m × (j-i). Per-head slopes hierarchy (m_h = 2^{-8h/H}). Strengths: zero parameters, train-short eval-long extrapolation, simple implementation. RoPE ile karşılaştırma, Mistral ve BLOOM kullanımı.
- 4
Long Context Extrapolation: NTK-Aware Scaling + YaRN + LongRoPE — 8K'dan 1M Token'a Yolculuk
RoPE'in long context'e genişletilmesi: NTK-aware scaling intuisyonu, YaRN (Peng 2023) — kapsamlı çözüm + temperature scaling, LongRoPE (Microsoft 2024) — 2M token context. Llama-3-8B base 8K → 128K extension reciplerine, Gemini 1.5 1M token tricks, fine-tune protokolü.
- 5
Capstone Modül 9: Llama-3 RoPE'i 50 Satırda Sıfırdan Implement Et — Pure NumPy + Visualization
Modül 9 capstone: Llama-3 uyumlu RoPE'i 50 satır pure NumPy'da implement et. cos/sin cache precomputation, pair-wise rotation, position visualization (cos/sin heatmap, attention bias pattern). Llama-3 actual weights ile compatibility test. Türkçe örneklerle position pattern interpretasyonu.
Modül 10: Transformer Block — Bloğun Anatomisi
- 1
Normalization Devrim: LayerNorm, RMSNorm ve Pre-LN vs Post-LN — Training Stabilitesinin Temel Taşı
Transformer training stabilitesinin matematiksel ve sistemsel anatomi: LayerNorm (Ba 2016) klasik formülü, RMSNorm (Zhang 2019) — Llama-3 tercihi, niye gain parameter only, computational savings. Pre-LN (modern) vs Post-LN (original Vaswani) trade-off, gradient flow, deep transformer stability. Türkçe model fine-tune'da normalization concerns.
- 2
SwiGLU Activation: SiLU + GLU = Modern FFN'in Kalbi — Shazeer 2020'den Llama-3'e
SwiGLU activation function'ın anatomi: SiLU (Sigmoid-weighted Linear Unit) base + Gated Linear Unit mechanism. Shazeer 2020 'GLU Variants Improve Transformer'. ReLU/GeLU karşılaştırma, niye modern modellerin tercihi. FFN dimensions (d_ff = 8/3 × d_model Llama-3 tercihi), parameter math, Llama-3 implementation.
- 3
Capstone Modül 10: Llama-3 Transformer Block'u 200 Satırda Sıfırdan — RMSNorm + RoPE + GQA + SwiGLU
Modül 10 capstone: Llama-3 architecture transformer block'unu 200 satırda implement et. RMSNorm + Pre-LN + GQA (Grouped-Query Attention) + RoPE + SwiGLU FFN + residual connections. Module 6-10'un sentezi. Türkçe örnekle forward pass, gradient flow analysis, Llama-3 actual weights load test.
Modül 11: Pre-training Dynamics + Optimizer Math
- 1
Pre-training Pipeline End-to-End: Corpus → Tokenize → Pack → Train — Llama-3 Production Recipe
Pre-training pipeline'ın tüm aşamaları: corpus collection (Common Crawl, Wikipedia, code), data cleaning (deduplication, language filtering, quality scoring), tokenization batching, sequence packing strategy, document boundary handling. Llama-3 production recipe: 15T tokens, 24K H100 günü compute, 70 günde training.
- 2
AdamW + Learning Rate Schedule: Modern LLM Optimization'ın Matematik Anatomisi
Modern LLM optimization: SGD'den Adam'a, Adam'dan AdamW'ye evrim. Loshchilov 2019 weight decay decoupling. Momentum (β1=0.9) + variance estimate (β2=0.95) intuition. Learning rate schedules: cosine decay, linear decay, warmup gerekli. Gradient clipping, mixed precision training, hyperparameter pitfalls.
- 3
Capstone Modül 11: Mini Llama-3 100M Param Pre-training — Single H100, 1 Hafta
Modül 11 capstone: kendi Llama-3 architecture mini model'i (100M param) sıfırdan pre-train. Modül 6-10'un tüm parçaları (Llama tokenizer + RMSNorm + GQA + RoPE + SwiGLU) + Modül 11 pre-training pipeline + AdamW. 5GB Türkçe corpus, single H100, 1 hafta. Validation loss tracking, checkpoint, sampling demosu.
Modül 12: Scaling Laws — LLM'in Büyüme Kanunları
- 1
Kaplan Scaling Laws (2020): LLM Performansının Power Law Anatomisi — Compute, Data, Param Üçgeni
Kaplan et al. 2020 paper'ının anatomi: LLM loss compute (C), parameters (N), data (D) için power law'a uyar. Niye log-log plot lineer, optimum allocation formülü, 'bigger is better' iddiası, GPT-3 (175B) bunun üzerine inşa edildi. Limitleri ve sonraki Chinchilla refutation'ı.
- 2
Chinchilla Scaling Laws (2022): Hoffmann et al. — 1:1 Param:Data Devrim
Hoffmann et al. 2022 'Training Compute-Optimal LLMs' paper'ı — Kaplan'ı düzeltti. Kaplan undertrained models bias. Chinchilla recipe: N ≈ D (1:1 ratio). 70B Chinchilla model > 280B Gopher (Hoffmann). Llama-3 Chinchilla-aware. Compute-optimal formula yeni, post-Chinchilla overtraining trend.
- 3
Capstone Modül 12: Kendi LLM Training Compute Budget'ını Planla — Chinchilla-Aware Calculator
Modül 12 capstone: Kendi LLM training budget'ı planla. Hedeflediğin model size (1B-70B), available compute (single GPU / cluster), available data — Chinchilla-aware optimal allocation hesapla. Cost estimator ($/training), time estimator, quality projection.
Modül 13: Distributed Training — Multi-GPU/Multi-Node
- 1
Data Parallelism (DDP): Multi-GPU LLM Training'in Temeli — AllReduce ve NCCL Anatomi
Distributed Data Parallel (DDP) anatomi: model replication across GPUs, mini-batch split, forward/backward independent per GPU, gradient AllReduce synchronization. NCCL (NVIDIA Collective Communication Library), ring-allreduce algorithm, bandwidth math. PyTorch DDP API, launch scripts, common pitfalls (uneven batches, batch norm sync).
- 2
FSDP + ZeRO: Sharded Training — Rajbhandari 2020'den Llama-3'e Memory Devrim
ZeRO (Zero Redundancy Optimizer, Rajbhandari 2020) — DeepSpeed library: optimizer state, gradients, parameters sharding stage 1/2/3. FSDP (Fully Sharded Data Parallel, PyTorch native) — ZeRO-3 implementation. Llama-3 production: FSDP + activation checkpointing. Memory math: 8B model 1 H100'de eğitilebilir.
- 3
3D Parallelism: Tensor + Pipeline + Data Parallel — Llama-3 70B ve 405B Training
Frontier LLM training: Megatron-LM'in 3D parallelism. Tensor Parallelism (Shoeybi 2019) — matrix splits across GPUs. Pipeline Parallelism (Huang 2018) — layer splits + bubble optimization. Combined 3D: DP × TP × PP. Llama-3 70B (DP=192, TP=8, PP=16). Communication patterns, optimization, capstone implementation outline.
Modül 14: Fine-tuning — SFT, LoRA, QLoRA
- 1
Supervised Fine-Tuning (SFT): Pre-trained Base Model'i Instruct'a Dönüştürme — Llama-3-Instruct Anatomisi
Supervised Fine-Tuning (SFT) anatomi: pre-trained base model → instruction-following model. Instruction dataset (Alpaca, OASST, Dolly), chat template uygulaması, loss masking (sadece response üzerinde loss), hyperparameter farkları (lr 1/10 of pre-train), Llama-3-Instruct production recipe, Türkçe için pratik fine-tune.
- 2
LoRA + QLoRA: Parameter-Efficient Fine-Tuning Devrim — Hu 2021'den Dettmers 2023'e
LoRA (Hu 2021): low-rank decomposition fine-tuning — base weights frozen, sadece küçük adapter eğit. %1 parameters, %95+ quality preservation. QLoRA (Dettmers 2023): 4-bit base + LoRA, 70B model'i consumer GPU'da fine-tune. NF4 quantization, paged optimizer. Türkçe pratik: $5K maliyetle production Türkçe Llama-3 70B.
- 3
Capstone Modül 14: Türkçe Llama-3 8B Production Fine-Tune — QLoRA + SFT End-to-End
Modül 14 capstone: Llama-3-8B base + Türkçe SFT + QLoRA = production-quality Türkçe Llama-3-Instruct. Dataset curation (50K Türkçe instruction), QLoRA training (single H100 8 saat), evaluation (MT-Bench-TR), HuggingFace Hub publish, vLLM inference deployment.
Modül 15: RLHF + DPO — Alignment & Preference Optimization
- 1
RLHF: Reinforcement Learning from Human Feedback — Ouyang 2022 InstructGPT'den ChatGPT'ye
RLHF'in tam anatomisi: SFT model → reward model training (Bradley-Terry) → PPO RL training. Ouyang 2022 InstructGPT paper, 3-stage pipeline, KL divergence penalty, reward hacking concerns. ChatGPT'nin gizli sosu. Türkçe RLHF zorlukları (human annotator pool, cultural nuances).
- 2
DPO: Direct Preference Optimization — Rafailov 2023, RLHF'in Cheaper Yeniden Doğuşu
DPO (Rafailov 2023): RLHF mathematical reformulation — no reward model, no RL. Direct preference loss. Llama-3 RLHF replacement. Math derivation, implementation simpler than PPO, comparable quality. Türkçe DPO pratik: $1K maliyetle 8B model alignment.
Modül 15: Tercih Hizalama — RLHF, PPO, DPO, GRPO
- 1
RLHF'in Doğuşu: Christiano 2017'den ChatGPT'ye Yedi Yıllık Yolculuk — İnsan Tercihiyle Hizalama'nın Tarihsel ve Felsefi Anatomisi
RLHF'in tarihsel ve felsefi temelleri: Christiano vd. 2017 'Deep RL from Human Preferences' paper'ından başlayarak, Stiennon 2020 özetleme çalışması, Ouyang 2022 InstructGPT, Aralık 2022 ChatGPT lansmanına uzanan yedi yıllık dönüşüm. Niye sadece SFT yetmiyor, 'helpful-harmless-honest' üçgeninin gerilimi, Goodhart Yasası ve reward hacking sorunu. Türkçe için kültürel bağlamla alignment ne demek — sen/siz ayrımı, sosyal hassasiyet, KVKK sınırı. Müfredatın en kritik kavramsal dersi.
- 2
Reward Model'in Matematiği: Bradley-Terry 1952'den Modern LLM Reward Mimari'ye — Tercihten Skalar Skora Geçiş
RLHF'in kalbi olan reward model'in matematiksel anatomisi: Bradley-Terry 1952 logistik tercih modelinin türetilmesi, sigmoid'in olasılıkçı yorumu, ranking loss'un türevi, RM mimari seçimleri (SFT'den ayrı vs ortak gövde + value head), kalibrasyon ve overconfidence sorunları, multiple comparison'lar için Plackett-Luce uzantısı, Türkçe için RM eğitiminin pratik tuzakları.
- 3
PPO Algoritması Satır Satır: Schulman 2017'den InstructGPT'ye — RL'in LLM'e Uyarlanması
Proximal Policy Optimization (Schulman 2017) algoritmasının LLM RLHF'e uyarlanması: policy gradient temeli, advantage estimation (GAE), clipped surrogate loss'un türevi ve neden 'clip', KL penalty matematiği, value function loss, entropi bonusu. InstructGPT'nin tam PPO setup'ı, hyperparametre seçimleri, eğitim stabilitesi, debug stratejileri.
- 4
DPO Devrim: Rafailov 2023'ün Matematik Keşfi — RLHF'i Tek Loss Fonksiyonuna Sıkıştırmak
Direct Preference Optimization (Rafailov vd. 2023): RLHF'in 3 aşamasını tek supervised loss'a indiren matematik keşfin tam türevi. Reward model'in 'gizli reformülasyonu', Bradley-Terry + KL constraint optimum çözümü, neden DPO 'her LLM zaten reward model' diyor, kapalı form çözümün matematik anlamı. PPO ile sayısal karşılaştırma, modern DPO varyantları (IPO, KTO, SimPO), Türkçe DPO production pipeline'ı.
- 5
GRPO ve Reasoning RL: DeepSeek-R1'in İçi — Grup-Bazlı Avantaj Tahmininden Process Reward'a
GRPO (Group Relative Policy Optimization): DeepSeek'in PPO'ya getirdiği elegant sadeleştirme. Value function olmadan advantage tahmini, grup karşılaştırması, computational verimlilik. DeepSeek-R1 paper'ının (Ocak 2025) anatomi, reasoning eğitiminin RL sıralaması, 'aha moments' fenomeni, process reward model'lerin rolü, o1 vs R1 mimari karşılaştırma, Türkçe reasoning model'i için pratik notlar.
- 6
Capstone Modül 15: Türkçe DPO Modeli Sıfırdan Üretime — Veri, Eğitim, Değerlendirme, Yayın
Modül 15 capstone projesi: Llama-3-8B-Instruct üzerine Türkçe DPO ile production-grade model üretmek. 5K Türkçe karşılaştırma verisinin nasıl toplanır (manual + synthetic), DPO eğitimi (QLoRA, single H100, $50), MT-Bench-TR ile değerlendirme, win-rate ölçümü, HuggingFace Hub'da model card ile yayın. Müfredatın altıncı production artefaktı.
Modül 16: Production Deployment — vLLM, Quantization, Monitoring
- 1
vLLM Production Serving: Paged Attention + Continuous Batching ile 10x Throughput
vLLM production deployment: paged attention (Kwon 2023), continuous batching, OpenAI-compatible API, multi-GPU tensor parallel serving, Kubernetes deployment patterns. Llama-3-8B + custom Türkçe model serving 1000+ concurrent users.
- 2
Quantization (GPTQ/AWQ/GGUF) + Final Capstone: Türkçe ChatGPT Klonu Production'da
Modül 16 capstone (müfredatın final capstone'u): GPTQ, AWQ, GGUF quantization formats. Türkçe Llama-3-8B-Instruct quantize + vLLM serve + Next.js frontend = Türkçe ChatGPT klonu. sukruyusufkaya.com/ai-asistan production deploy. Müfredatın sentezi, gerçek dünya artefakt.
Modül 16: Üretim Mühendisliği — Self-Host, Quantization, Sunum, İzleme
- 1
Self-Host Karar Çerçevesi: OpenAI API vs Kendi GPU'n — Maliyet, Gizlilik, Performans, Bağımsızlık
LLM üretimine geçişin ilk kritik kararı: API mı, self-host mu? Bu dersin hedefi karar mühendisliğini sağlam temellendirmek. Maliyet matematiği (per-token ekonomisi, fixed vs variable costs), gizlilik (KVKK, sektörel kısıtlar), performans (latency, throughput), bağımsızlık (lock-in riski). Türkçe SaaS için 5 farklı senaryo: chatbot, RAG, content gen, hukuki, sağlık. Her birinde doğru karar farklı.
- 2
vLLM Production Mühendisliği: Paged Attention'dan SLA'lara — Modern LLM Sunumunun Anatomisi
vLLM'in matematiksel ve sistemsel anatomi: Paged attention (Kwon vd. 2023) niye RAM'i 5× verimli kullanıyor, continuous batching matematik, KV cache'in iç yapısı, OpenAI-uyumlu API, Türkçe Llama-3 deployment'ı baştan sona. Hardware seçimi (H100 vs A100 vs RTX 4090), Kubernetes setup, autoscaling, SLA garantileri.
- 3
Quantization Derinlemesine: INT4'ten FP8'e — Modelinizi 4× Küçültmek, 2× Hızlandırmak
LLM quantization'ın matematiksel ve mühendislik anatomi: INT8, INT4, FP8 formatları, GPTQ (Frantar 2022) vs AWQ (Lin 2023) vs GGUF (Gerganov) algoritmaları, kalite-boyut-hız trade-off'ları. Llama-3-8B Türkçe DPO model'ini 4-bit AWQ ile quantize etme, kalite kaybı ölçümü, RTX 4090'da Llama-3-70B çalıştırma, mobil cihaz deployment'ı.
- 4
Monitoring, Observability ve Alerting: Production LLM'inizi Gözleyin — Metrikten Eyleme
Production LLM sunumunun izleme ve gözlemlenebilirlik katmanı: Prometheus metrikleri (vLLM native), Grafana dashboard tasarımı, OpenTelemetry tracing, log aggregation (Loki/Elastic), alerting kuralları (Slack/PagerDuty), Sentry ile error tracking. Türkçe-spesifik anomaliler: hallucination tespit, tokenizer hataları, prompt injection alarm. Bir LLM mühendisinin 'ne izlemeli' rehberi.
- 5
Capstone Modül 16: Türkçe ChatGPT Klonu Yayında — Modülün 16 Bütünleştirilmesi
Modül 16'nın capstone'u: 4 dersin (karar, vLLM, quantization, monitoring) sentezini gerçek bir ürüne dönüştürmek. Modül 15.6'daki Türkçe DPO modelimizi → 4-bit AWQ quantize → vLLM serve → Next.js frontend + streaming → Vercel deploy → Sentry + Grafana monitoring → **chat.sukruyusufkaya.com**'da yayında. Müfredatın 7. production artefaktı. Backend ($60/ay maliyet), frontend (Vercel free tier), monitoring (Grafana Cloud free) ile tam stack.
Modül 17: Reasoning Models — o1, DeepSeek-R1, Test-Time Compute
- 1
Reasoning Devrim: OpenAI o1'den DeepSeek-R1'e — Test-Time Compute ve Chain-of-Thought'un Yeniden Doğuşu
2024-2026 LLM frontier'ı: reasoning models. OpenAI o1 (Eylül 2024), DeepSeek-R1 (Ocak 2025) devrim. Test-time compute scaling (Kaplan'ın yeni boyutu), chain-of-thought intensification, hidden reasoning tokens (o1) vs visible (R1), RL training reasoning patterns. AIME, MATH benchmark devrim, GPT-4 → o1 90% accuracy sıçraması.
- 2
DeepSeek-R1 Self-Host + Türkçe Reasoning: Distilled Models, Prompt Patterns, Production Deployment
DeepSeek-R1-distilled (7B, 14B, 32B) self-host: vLLM deployment, hardware requirements, prompt patterns for reasoning, Türkçe math problem solving demo. Reasoning model production usage: when, how, cost-benefit.
Modül 17: Akıl Yürüten Modeller — Test-Time Compute Devrimi
- 1
Reasoning Devrimi'nin Tarihi: Wei 2022 Chain-of-Thought'tan o1'e — 'Düşünmeyi Öğrenen Modellerin' Yedi Yıllık Doğuşu
Reasoning model'lerin tarihsel ve kavramsal anatomi: Wei vd. 2022 'Chain-of-Thought Prompting'ten 12 Eylül 2024 OpenAI o1 lansmanına yedi yıl. Self-consistency (Wang 2022), Tree of Thoughts (Yao 2023), Reflexion (Shinn 2023) — prompting-based reasoning'in yükselişi ve sınırları. Niye 2024'e kadar 'reasoning model' yoktu, niye o1 farklıydı, test-time compute'un yeni scaling boyutu olarak ortaya çıkışı. Türkçe matematik problemi çözen modeller için ne ifade ediyor.
- 2
Test-Time Compute Scaling Matematiği: Snell 2024 Paper'ı — 'Düşünmek' İçin Compute Harcamanın Yeni Bilimi
Yeni scaling boyutunun matematiği: Snell vd. 2024 'Scaling LLM Test-Time Compute Optimally' paper'ı. Multi-sample (best-of-N, self-consistency) vs deep thinking (uzun reasoning chain) trade-off'ları. Optimum compute allocation: aynı bütçeyi nasıl en iyi dağıtırsın? Pre-training compute ile arasındaki paradoks: %20 daha az pre-training + %50 daha çok test-time = aynı kalite. Türkçe için 'düşünme bütçesi' planlaması.
- 3
o1 Mimari Spekülatif Analiz: Kapalı Kapılar Ardından — Public Observations + Reverse Engineering
OpenAI'in açıklamadığı o1 mimarisini, public observations + akademik paper'lar + community reverse engineering birleştirerek tahmin ediyoruz. PRM (Process Reward Model) + MCTS (Monte Carlo Tree Search) + RL kombinasyonu mu? Pricing modelinden çıkarılan ipuçları. Reasoning tokens'in görünmemesinin AI safety + ticari anlamı. R1 paper'ından geri yansıma — açık alternatif ne öğretti?
- 4
DeepSeek-R1 GRPO Derinlemesine: Açık Reasoning RL'in Matematiği — Group Relative Policy Optimization
DeepSeek-R1'in (Ocak 2025) ana eğitim algoritması GRPO (Group Relative Policy Optimization). PPO'dan farkları satır satır türev. Value function'sız avantaj tahmini (grup karşılaştırması). 4 aşamalı eğitim (R1-Zero → Cold Start → Reasoning RL → Distill) detaylı walk-through. 'Aha moments' empirik fenomeni — paper'da verilen örnekler ve istatistik analiz. Türkçe için R1 fine-tune stratejileri.
- 5
Capstone Modül 17: Türkçe Reasoning Model Üretime — R1-Distill-32B Türkçe Matematik Fine-Tune
Modül 17 capstone: R1-Distill-Qwen-32B üzerine Türkçe matematik DPO fine-tune. YKS/TYT/TÜBİTAK matematik problemlerinden 5K Türkçe reasoning chain dataset oluşturma, DPO eğitim (1 H100, 1 hafta, $200-500), evaluation (AIME-TR, YKS matematik), HuggingFace Hub'da yayın. Müfredatın 8. production artefaktı: sukruyusufkaya/r1-distill-tr-math-32b.
Modül 18: Mixture of Experts — Sparse Activation Devrim
Modül 18: Uzmanlar Karması (MoE) — Sparse Activation Devrimi
- 1
MoE Tarihçesi: Jacobs 1991'den DeepSeek-V3 2024'e — 33 Yıllık Sparse Activation Devrimi
Mixture of Experts'in 33 yıllık entelektüel yolculuğu: Jacobs vd. 1991 orijinal paper ('Adaptive Mixtures of Local Experts'), Shazeer vd. 2017 'Outrageously Large Neural Networks' — modern MoE'nin başlangıcı, GShard 2020 Google scale, Switch Transformer 2021, Mixtral 8x7B (Ocak 2024) açık kaynak devrim, DeepSeek-V3 (Aralık 2024) 671B aktif 37B. 'Niye 33 yıl kapı dışında kaldı, niye şimdi geri döndü?'
- 2
MoE Matematik Anatomi: Gating Network, Top-k Routing, Load Balancing — Sparse Activation Sıfırdan
MoE'nin iç matematiği: gating network'ün türev hesabı, top-k routing'in implementasyonu, expert collapse problemi ve load balancing loss (Shazeer 2017), auxiliary loss matematik, capacity factor, drop tokens, FLOP analizi. PyTorch'ta sıfırdan MoE FFN layer implementation. Türkçe data'da expert utilization gözlemleri.
- 3
DeepSeek-V3 İnovasyonları: MLA, Auxiliary-Loss-Free, Multi-Token Prediction — 2024 Frontier'ın 3 Anahtarı
DeepSeek-V3'ün 3 kritik yeniliği derinlemesine: (1) Multi-head Latent Attention (MLA) — KV cache'i %93 azaltan attention varyantı, (2) Auxiliary-loss-free load balancing — bias trick ile temiz gating, (3) Multi-token prediction (MTP) — eğitimde 2-3 token paralel tahmin. Her birinin matematik anatomisi, niye işe yarıyor, V3'ün $5.6M training cost'una nasıl katkıda bulundu. Türkçe için pratik kullanım.
- 4
Capstone Modül 18: Türkçe Mixtral DPO — Açık MoE'yi Türkçeye Bük
Modül 18 capstone: Mixtral-8x7B-Instruct üzerine Türkçe DPO fine-tune. 5K Türkçe karşılaştırma data + QLoRA-DPO + 2× H100 (FSDP) + vLLM deployment. Expert utilization Türkçe için optimize ediliyor. Maliyet $200-500. Müfredatın 9. production artefaktı: sukruyusufkaya/mixtral-8x7b-tr-dpo.
Modül 19: Multimodal LLMs — Vision + Audio + Video
Modül 19: Çok Modlu Modeller (Multimodal) — Görüntü + Ses + Video
- 1
Multimodal LLM Tarihçesi: Radford 2021 CLIP'ten GPT-4o'ya — 'Görmeyi Öğrenen' Dil Modellerinin Doğuşu
Multimodal LLM'lerin tarihsel ve kavramsal anatomisi: Radford vd. 2021 CLIP paper'ı — contrastive learning ile resim-metin alignment'ın doğuşu, ViT (Dosovitskiy 2020) image transformer, BLIP (Li 2022), Flamingo (Alayrac 2022), LLaVA (Liu 2023) open-source çığır, GPT-4V (Eylül 2023), GPT-4o (Mayıs 2024) unified omni-modal, Llama-3.2 Vision (Eylül 2024) açık-kaynak. 5 yıllık 'dil + görüntü' birleşme yolculuğu ve Türkçe için multimodal ne ifade ediyor (Türkçe doküman OCR, kültürel görsel anlama).
- 2
Multimodal Mimari Matematiği: Vision Encoder → Projection → LLM — 3 Bağlama Stratejisi
Multimodal LLM'lerin iç mimari matematiği: Vision encoder (ViT/CLIP/SigLIP) → projection → LLM bağlama 3 stratejisi. (1) Linear projection (LLaVA tarzı, basit), (2) Q-Former (BLIP-2 tarzı, learnable queries), (3) Cross-attention (Flamingo/Llama-3.2 tarzı, derin entegrasyon). Image token budget management, resolution sorunu, vision-text alignment. PyTorch'ta sıfırdan LLaVA-style multimodal mimari. Türkçe için image-text alignment.
- 3
Türkçe Multimodal Pratiği: Kimlik OCR'dan Trafik İşaretine — 5 Production Use Case
Türkçe multimodal LLM'lerin production kullanım alanları: (1) Kimlik kartı + ehliyet OCR + alan çıkarma (bankacılık, telco), (2) E-fatura + makbuz processing (muhasebe), (3) Türkçe trafik işaretleri tanıma (otomotiv), (4) Türkçe sınav kağıdı dijitalleştirme (eğitim), (5) Osmanlıca belge analizi (akademik). Her use case için GPT-4o vs Llama-3.2-Vision karşılaştırma, KVKK uyumlu pipeline, Python production code. Türkçe için multimodal prompting best practices.
- 4
Capstone Modül 19: Türkçe Multimodal Doküman İşleme Sistemi — Production SaaS
Modül 19 capstone: Türkçe multimodal doküman işleme production SaaS. Next.js drag-drop frontend + FastAPI backend + Llama-3.2-Vision veya GPT-4o seçilebilir model + KVKK uyumlu encrypted storage + Stripe payment. Kimlik OCR, e-fatura, sınav kağıdı, ücretsiz tier + premium. Müfredatın 10. production artefaktı: docproc.sukruyusufkaya.com.
Modül 20: AI Ajanları — Tool Use, Function Calling, MCP, Multi-Agent
- 1
Tool Use Tarihçesi: Yao 2022 ReAct'tan Anthropic MCP'ye — LLM Ajanlarının 3 Yıllık Doğuşu
LLM ajanlarının tarihsel ve kavramsal anatomisi: Yao vd. 2022 ReAct paper'ı ('Reasoning + Action' birleşmesi), OpenAI function calling (Haziran 2023, ilk standartlaşma), Anthropic MCP (Kasım 2024, açık standart). LangChain, AutoGen, CrewAI gibi framework'lerin yükselişi. 'Niye LLM'ler kendi başına yeterli değil, niye tool kullanmaları gerekiyor?' AGI tartışmasının pratik yüzü. Türkçe ajan use case'leri.
- 2
Tool Use Matematik ve Implementation: JSON Schema'dan Pydantic AI'a — Production Ajan Mühendisliği
Tool use'un iç matematiği ve production implementation: JSON schema standardı detayı, OpenAI function calling tam anatomisi, ReAct prompt mühendisliği teknikleri, MCP protokol implementation (Python stdio + SSE). Türkçe tool calling örnekleri (TC kimlik validasyonu, e-fatura sorgulama). Pydantic AI ile temiz, type-safe ajan. LangChain alternatifi olarak modern yaklaşım. Error handling, retry logic, tool timeout management.
- 3
Capstone Modül 20: Türkçe E-Ticaret Multi-Agent Sistemi — CrewAI ile Production Ajan
Modül 20 capstone: Türkçe e-ticaret multi-agent sistemi. 3 ajan: (1) Research Agent — Trendyol/Hepsiburada'da ürün arama, (2) Price Compare Agent — fiyat ve kargo karşılaştırma, (3) Recommendation Agent — kullanıcıya öneri. CrewAI framework, Pydantic AI tools, FastAPI backend, Next.js frontend, Stripe API. Türkçe doğal sohbet → otomatik alışveriş araştırması. KVKK uyumlu. Müfredatın 11. production artefaktı.
Modül 21: LLM Değerlendirme — Benchmark'lar ve Production Eval
- 1
Benchmark Anatomi: MMLU'dan LMSys Arena'ya — LLM Kalitesini Ölçmenin Bilimi ve Sanatı
LLM benchmark'larının matematiksel ve epistemik anatomi: MMLU (Hendrycks 2020 — 57 task), HumanEval (Chen 2021 — kod), MT-Bench (Zheng 2023 — chat), LMSys Chatbot Arena (community ELO ranking), GPQA (Rein 2023 — graduate-level reasoning). 'Niye bir benchmark yeterli değil?' Türkçe için TR-MMLU, MUKAYESE, BoazıçNLP. **Benchmark contamination** sorununun ciddi analizi — model'in eğitim verisinde test soruları varsa skor yanıltıcı. Holistic evaluation yaklaşımı.
- 2
Production Evaluation Framework: Test Set Design'dan LLM-as-Judge'a — Kendi Türkçe Eval Sistemi Kur
Production-grade LLM evaluation framework kurmak: test set design (sampling strategy, edge cases, adversarial), automated eval pipeline (pytest-like setup), LLM-as-a-judge stratejileri (GPT-4o vs Claude vs ensemble, bias detection), error analysis (clustering, root cause), A/B testing protokolleri (statistical significance, sample size). Modül 15-20'deki 7 production artefakt'ı objektif karşılaştırma. Python + Pydantic ile clean evaluation code.
- 3
Capstone Modül 21: TR-LLMArena — Türkçe LMSys-tarzı Community Leaderboard
Modül 21 capstone: Türkçe LMSys benzeri community-driven leaderboard. Çift-anonim A/B vote sistemi, ELO ranking, aylık leaderboard. HuggingFace Spaces deploy, GPT-4o/Claude/Llama-3 vs Türkçe modeller (Modül 14-20 capstone'ları). Türkçe AI ekosistemine somut bilim katkısı. Müfredatın 12. production artefaktı.
Modül 22: AI Safety + Alignment + KVKK — Final Modül
Modül 22: AI Güvenliği ve Regülasyon — Jailbreak, KVKK, AB AI Act
- 1
Jailbreak ve Red-Teaming: 'DAN'dan Constitutional AI'a — LLM Saldırı ve Savunma Sanatı
LLM güvenliğinin saldırı + savunma tarafı: prompt injection, jailbreak teknikleri (DAN, roleplay, encoding attacks), token smuggling, indirect injection (RAG'lerden sızıntı). Bai vd. 2022 Constitutional AI yaklaşımı — Anthropic'in savunma stratejisi. Red-teaming protocols (OpenAI, Anthropic best practices). Türkçe-özgül jailbreak örnekleri (İslami hassasiyet bypass, KVKK bypass denemeleri). Production-grade savunma katmanları: input filter + output filter + monitoring.
- 2
KVKK + AB AI Act Regülasyon: Türk LLM Mühendisinin Hukuki Rehberi — Compliance Pipeline Kurmak
Türkçe LLM mühendisinin regülasyon rehberi: KVKK (6698 sayılı kanun) tüm relevant maddeler, **AB AI Act** (Haziran 2024) risk kategorileri (yasak, yüksek-risk, sınırlı, minimal), Türk şirketin AB'ye hizmet verme ikilemi (hem KVKK hem AI Act compliance). Production compliance pipeline: VERBİS kaydı, veri envanteri, GDPR-uyumlu logging, KVK kurulu denetimi, AI Act high-risk dokumentasyon. Gerçek davalar ve cezalar (KVKK ile $50K+ fines).
- 3
Capstone Modül 22: Türkçe LLM Compliance Stack — Müfredatın Kapanış Kurdelesi
Modül 22 capstone: müfredatın 12 production artefakt'ını (Modül 6-21) KVKK + AB AI Act uyumlu hale getirmek. Audit log infrastructure + encryption + deletion endpoint + breach response plan + AB temsilci + AI Act risk değerlendirme dokümantasyonu. Müfredatın **13. ve final production artefaktı**. Aynı zamanda müfredatın **resmi kapanışı** — sıfırdan AI mühendisliğine 200+ saatlik uzman seviye yolculuğun sonu.