Fine-Tuning Cookbook (Model-by-Model)
Bu cookbook'un kullanım kılavuzu: 5-bileşenli ders anatomisi (Theory/Math/Lab/Debug/Bench), Stage taksonomisi (Spike → Reference → Production → Research), reproducibility kontratı (bit-exact runs), RTX 4090 baseline'ı niye seçildi, GPU bütçeleme matematiği.
İçindekiler
Part 0 — Engineering Foundations
- 1
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Bu cookbook'un kullanım kılavuzu: 5-bileşenli ders anatomisi (Theory/Math/Lab/Debug/Bench), Stage taksonomisi (Spike → Reference → Production → Research), reproducibility kontratı (bit-exact runs), RTX 4090 baseline'ı niye seçildi, GPU bütçeleme matematiği.
- 2
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
ML'in en pahalı zaman tüketicisi: tekrar üretilemeyen sonuçlar. Bu derste seed yönetimi, cuDNN/cuBLAS deterministic flags, ATen non-deterministic op tespiti, dataloader worker'ların seed'lenmesi, deterministic scatter/gather'ların maliyeti — her şey pratik kod ve gerçek log'larla.
- 3
Environment Pinning: uv + pyproject.toml, CUDA Version Matrix ve Container Reçeteleri
Reproducibility'nin ikinci yarısı: lib versiyonlarını çivile, CUDA matrix'i anla, Docker/Apptainer reçetelerini yaz. uv'nin pip+poetry'yi 10-100x geçtiği noktalar, RTX 4090 için CUDA 12.4 PyTorch 2.5 stack'i, FT framework'lerinin (TRL, Unsloth, Axolotl) hangi versiyonlarının uyumlu olduğunu gösteren uyum matrisi.
- 4
Container & Slurm Recipes: Tek 4090'dan Cloud Multi-Node'a Doğru Köprü
Tek 4090'da hazırladığın eğitimi 8×H100 cluster'a taşıma kılavuzu: Slurm sbatch şablonu, multi-node NCCL setup, EFA/InfiniBand sanity check, Lambda/RunPod/CoreWeave/Vast'ın gerçek saat fiyatları, preemption-tolerant training, checkpoint manifest, FAULT_TOLERANCE prensipleri.
- 5
Experiment Tracking Mimarisi: Weights&Biases + Hydra + DVC — Sweep'in Mühendisliği
ML deneylerini disipline almak: Hydra ile config-driven runs, W&B ile sweep + system metrics + offline mode, DVC ile dataset/checkpoint versioning, alias/lineage tracking. Cookbook'un 'rapor edilebilir Lab' standardı: hangi run hangi commit hash + dataset hash + W&B run ID + checkpoint sha?
Part I — Hardware & Memory Engineering
- 1
GPU Bellek Bütçesinin Anatomisi: W + G + O + A + B — RTX 4090'daki 24GB'ı Atomları Görerek Yönet
Fine-tuning'de en sık duyduğun cümle: 'OOM'. Bu ders OOM'u bir daha **hiç** rastgele yaşatmayacak. Weights/Grads/Optimizer/Activations/Buffers bütçesini paramparça aç; AdamW'nin niye 8 byte/param, Lion'un 4 byte/param istediğini, NF4'ün niye 0.5 byte/param ile çalışabildiğini matematiksel olarak kavra. Llama 3.1 8B'yi 24GB'a 4 ayrı yöntemle sığdır.
- 2
Activation Memory Anatomisi: Niye O(L·s·h) ve FlashAttention'ın Gerçek Tasarrufu
Activation memory: forward pass'in en yanıltıcı bellek tüketicisi. Layer-by-layer breakdown (attn intermediates, FFN, norm, residual), FlashAttention'ın saved memory matematiği (O(s²)'den O(s)'e), grad-checkpoint'in 'sqrt(L) tasarruf' efsanesi, packing + variable-length attention.
- 3
Gradient Checkpointing Trade-off Lab: Memory'yi Kompresleyip Compute'ı Krediye Yatırmak
Gradient checkpointing'in seçim ağacı: per-layer mı, segment-based mi, custom selective mi? Re-entrant vs non-re-entrant farkı, torch.utils.checkpoint vs HF Trainer kwargs, selective checkpointing (sadece attn'i checkpoint et, FFN'i değil). RTX 4090 + Llama 3.1 8B üzerinde 5 strateji bench'i.
- 4
Mixed Precision Mimarisi: bf16 vs fp16 vs fp8 — Niye RTX 4090'da Saf bf16?
fp16'nın loss scaling karmaşası, bf16'nın 'master fp32' örüntüsü, fp8 (Ada destekler, ama H100 native), TF32 matmul precision flag, autocast nuance'ları — RTX 4090 için cookbook'un kesin tercihi olarak saf bf16. NaN'ların maliyeti, training stability matematiği.
- 5
PCIe vs NVLink vs InfiniBand: Bandwidth'in Eğitim Üzerindeki Görünmez Etkisi
Tek 4090'da bandwidth görünmez ama scale-out'a geçince eğitimi tek başına yavaşlatabilen şey. PCIe 4.0/5.0 lane matematiği, NVLink (4090'da neden YOK), NVSwitch topolojisi, InfiniBand 400G, NCCL all-reduce'un network-bound olduğu eşik, p2p_access detection, GPU-direct.
- 6
Storage I/O Engineering: Dataset'in Eğitimi Yavaşlatma Sanatı (ve Önleme)
Dataset bottleneck: GPU %30 idle bekliyor çünkü disk yetmiyor. NVMe Gen3/Gen4/Gen5 throughput, dataset format seçimi (parquet vs arrow vs webdataset), HuggingFace datasets caching, num_workers tuning, prefetch_factor, persistent_workers, pinned memory, FSx vs S3 vs local — RTX 4090 + 50K Türkçe dataset'i 0 idle çalıştırma reçetesi.
- 7
Profiling Stack: torch.profiler + Nsight Systems + Nsight Compute + MFU Hesabı
Optimization olmadan profiling = boş laf. torch.profiler ile Python-level timing, Nsight Systems (nsys) ile kernel-level timeline, Nsight Compute (ncu) ile kernel-internal metrics, MFU (Model FLOPs Utilization) hesabı: senin Llama 3.1 8B QLoRA Lab'ın RTX 4090'da teorik 165 TFLOPs'un %ne kaçında çalışıyor? Cookbook'un sertifika gereksinimi: her Lab MFU > %35.
- 8
Cost Engineering: 4090 Lokal mi Cloud H100 mu? — Breakeven, Spot ve TCO Matematiği
Her FT mühendisinin sorduğu sessiz soru: 'Bunu lokal 4090'da mı yapsam, cloud'a mı atayım, hangisi ucuz?' Cookbook'un kesin cevap matematiği: RTX 4090 amortismanı (₺), elektrik (₺3.5/kWh × 450W), bulut saat fiyat tablosu (Lambda/RunPod/CoreWeave), spot risk hesabı, breakeven süresi, hybrid stratejisi (4090 dev + cloud production).
Part II — Tokenizer & Data Engineering
- 1
BPE / SentencePiece / Unigram: Tokenizer Algoritmalarının Matematiği ve Sıfırdan TR-Aware Eğitim
BPE'nin merge tablosu, SentencePiece'in language-agnostic byte/char model'i, Unigram'ın EM training'i; her birinin neden sonuçta farklı token verimi getirdiği. RTX 4090 ile 1.5GB Türkçe corpus üzerinde 50K-vocab BPE eğitimi (~12 dakika). TR-aware tokenizer'ın Llama-3'ün default'unu nasıl 1.6x verimle geçtiği — matematiksel ispatla.
- 2
Vocabulary Extension: Llama-3 Tokenizer'a 8K TR Token Ekle (Embedding Init Stratejileri)
Llama-3 default tokenizer 128K — multilingual ama TR için verim düşük. 'Extension' yaklaşımı: Llama-3 vocab'ına 8K TR-spesifik token ekle, embedding matrix'i 128K→136K büyüt, yeni satırları akıllıca init et (mean-init, SVD-init, byte-decomposition). RTX 4090'da pratik lab + perplexity delta ölçümü.
- 3
Tokenizer Distillation: Çoklu Modeller Arası Token Mapping ve TR Token Verimi Ölçümü
Distil ettiğin teacher modelin tokenizer'ı student'inkinden farklı → label mismatch. Token-level distillation için cross-tokenizer mapping table inşası, GPT-4 → Llama-3 distill örneği, TR token verimi karşılaştırması (Llama-3 vs Qwen 2.5 vs Gemma 3 vs Mistral vs Phi-4) — hangi tokenizer Türkçe için ne kadar etkili?
- 4
Chat Template Anatomi: Jinja, Special Tokens ve Token-by-Token Açılım
Chat template = LLM'in 'konuşma'yı anladığı format. Llama-3, Qwen 2.5, Gemma 3, Mistral, Phi-4 chat template'lerinin token-by-token anatomisi. apply_chat_template'in arka planda ne yaptığı, system/user/assistant role'lerinin token ID'leri, tool-calling extensions, multimodal turn formatları.
- 5
Loss Masking: 'Sadece Response Üzerinde Loss' Cümlesinin Gerçek Implementasyonu
Loss masking SFT'nin temel taşı. IGNORE_INDEX=-100'ın PyTorch CrossEntropyLoss ile etkileşimi, instruction token'larının nasıl maskelenip response'un nasıl tutulduğu, Unsloth'un train_on_responses_only fonksiyonunun source-code okuma, multi-turn conversation'da turn-by-turn masking, edge case'ler (assistant cevabının ortasında system prompt değişimi).
- 6
Dataset Quality Pipeline: MinHash Dedupe + Perplexity Filter + Toxicity + Educational-Value
Garbage in, garbage out. SFT dataset quality pipeline: MinHash LSH ile near-duplicate detection (~%30-40 duplicate olur), KenLM 5-gram perplexity filter (anlamsızları at), HateBERT-TR ile toxicity score, FineWeb-style educational-value scorer. RTX 4090'da 1M satır TR datasetini 25 dakikada temizleme.
- 7
Synthetic Data: Self-Instruct, Evol-Instruct, OSS-Instruct, MAGPIE (TR İçin Adaptasyon)
Türkçe için instruction data çok kıt. Çözüm: synthetic generation. Self-Instruct (Stanford 2022), Evol-Instruct (WizardLM), OSS-Instruct (Magicoder), MAGPIE (2024) tekniklerinin TR adaptasyonu. Teacher model seçimi etiği (GPT-4 ToS), prompt mühendisliği, automated quality control loop.
- 8
Data Mixing Math: Sampling Temperature, DoReMi, Domain Reweighting
Multiple dataset varsa nasıl karıştırırsın? Naïve concatenation = büyük dataset dominates. Sampling temperature, proportional mixing, DoReMi (Xie et al. 2023) algoritması ile dynamic reweighting. Türkçe SFT mix örneği: %40 TR-Alpaca + %25 OASST + %20 ShareGPT-TR + %15 custom — niye bu yüzde?
- 9
Sequence Packing & Variable-Length Attention: Throughput'u %40 Artıran Trick
Padding token'lar boşa giden compute. Packing: birden fazla kısa örneği tek sequence'a doldur. Variable-length attention (flash_attn_varlen_func) ile block-diagonal mask. TRL SFTTrainer packing=True internals, cu_seqlens tensor anatomisi, throughput bench (Llama 3.1 8B RTX 4090: 7290 → 10200 tokens/s).
- 10
Streaming & Sharded Datasets: 500GB+ Veriye Disk Olmadan Eğitim
1 TB dataset 4090'ın 2TB NVMe'sine sığar ama tokenize edip cache'lemek 5 TB ister. Çözüm: streaming. HuggingFace datasets.IterableDataset, WebDataset .tar shard'lar, MosaicML Streaming (MDS), S3 streaming, resumable streaming (epoch'tan yarıdayken duruyor, resume). Multi-worker collator pattern.
- 11
Long-Context Dataset Engineering: NIAH, RULER ve 128K Context FT İçin Veri Hazırlama
Llama 3.1'in 128K context'ini gerçekten kullanmak: long-context SFT data nasıl üretilir? NIAH (Needle-in-Haystack) synthetic, RULER benchmark üretim reçeteleri, long-form QA dataset, code-repo concatenation, repository-level context. RTX 4090'da long-context QLoRA (128K seq) — packing dahil 22GB peak.
- 12
DPO / KTO Dataset Engineering: Chosen/Rejected Triplet Üretiminin Mühendisliği
DPO ve KTO için 'chosen' (iyi) ve 'rejected' (kötü) cevap çiftleri lazım. Üretim yöntemleri: AI Feedback Loop (RLAIF), regex-graded pairs (math/code), human-in-the-loop, hard-negative mining, length-controlled pairs. UltraFeedback dataset analizi, TR DPO dataset inşası, KTO'nun tek-yönlü preference avantajı.
Part III — Small Open Models (1B–8B)
- 1
Llama 3.1 / 3.2 / 3.3 8B — RTX 4090'ın İş Atı: GQA + 128K Context + Türkçe Reçete
Llama 3.1/3.2/3.3 8B-Instruct'ın anatomisi: 32 layer × 4096 hidden, GQA (8 KV-head), RoPE θ=500K, SwiGLU, RMSNorm, 128K context (YaRN-extended). RTX 4090'da QLoRA NF4 + Unsloth ile 50K Türkçe Alpaca üzerinde 1 epoch ~50 dakika. TR-MMLU baseline 32.4 → fine-tune 39.8 (+%23). Full reçete: dataset format, hyperparameter tablosu, sweep aralıkları, sample inference, eval pipeline.
- 2
Llama 3.2 1B / 3B — Edge & Mobile FT: Tied Embeddings + Distillation + GGUF Q4
Llama 3.2 1B/3B — Llama 3.1 8B'den distilled. Tied embeddings (input/output emb shared), edge cihazlarda inference. RTX 4090'da full FT mümkün (1B=2GB, 3B=6GB W). GGUF Q4_K_M quant ile iPhone/Pixel'de 8-15 tok/s. TR-MMLU sayıları ve dataset stratejileri.
- 3
Qwen 2.5 / Qwen3 1.5B/3B/7B — Multilingual Şampiyonu (Türkçe Token Verimi)
Qwen 2.5 / Qwen3 — Alibaba'nın açık ağırlık ailesi. 151K token vocab (TR-friendly), Apache 2.0 lisans, FT için Llama'dan rahat. RTX 4090'da Qwen2.5-7B QLoRA 1 epoch ~40 dakika. TR-MMLU baseline 38.1 (Llama'dan iyi!) → fine-tune 44.2 (+%16). Qwen3 14B + YaRN context extension.
- 4
Qwen3 14B / 32B Base + YaRN: Long-Context FT (32K → 128K) RTX 4090'da Marjinal Mümkün
Qwen3 14B'nin RTX 4090'da QLoRA + 32K context FT'si — mem peak 21 GB, marjinal sığıyor. YaRN rope-scaling math (β_fast, β_slow, scaling), long-context SFT dataset (NIAH + RULER), 32B'nin 4090'da imkansız olduğu yer. Cloud 1×H100 80GB alternatifi.
- 5
Mistral 7B v0.3 + Mistral Small 3 (24B): Sliding Window Deprecation + Tool-Calling
Mistral 7B v0.3 (Apache 2.0, 32K context), Mistral Small 3 (24B, Apache 2.0, 32K). v0.3'te sliding window deprecation, function-calling chat template, tool-token training. RTX 4090'da Mistral 7B QLoRA 1 epoch ~45 dakika. Mistral Small 3 (24B): NF4 = 12 GB, QLoRA marjinal sığar (~22 GB peak).
- 6
Gemma 3 1B / 4B / 12B / 27B: Google'ın 256K Vocab + Multimodal (4B+)
Gemma 3 — Google'ın 2025 açık modelleri. 256K vocab (TR-friendly), 4B+ multimodal (SigLIP vision tower), GeGLU activation, RMSNorm, 128K context, ShieldGemma safety classifier. RTX 4090'da Gemma 3 4B/12B QLoRA. system role yok (user'a prepend), Gemma 3 ToS dikkati.
- 7
Phi-4 + Phi-4-mini: Microsoft'un Synthetic-Curriculum Modeli — TR'de Niye Kırılgan?
Phi-4 14B + Phi-4-mini 3.8B — Microsoft'un 'textbook quality' synthetic data ile train edilmiş modelleri. Math + code'da güçlü, genel TR konuşmada zayıf. Niye? Synthetic data ağırlıklı İngilizce. RTX 4090'da Phi-4 QLoRA Lab + niche domain'lerde nasıl parlıyor (math reasoning, code completion).
- 8
SmolLM3 1.7B: Tiny Tier — 8GB RAM'li Cihazda Çalışan Production Model
SmolLM3 (HuggingFace, Mart 2025) — 1.7B param, hybrid GQA, 256K context (YaRN), %100 açık (data, training pipeline, weights). Edge cihaz target: 8GB RAM phone / Raspberry Pi 5 / IoT. RTX 4090'da full FT 25 dakika. Q4_K_M GGUF → 1.0 GB.
- 9
DeepSeek-R1-Distill (Llama-8B / Qwen-7B): Reasoning Trace Distillation — 'Think Token'ları Öğrenmek
DeepSeek-R1-Distill — R1 (671B reasoning model) traces ile distilled Llama/Qwen base'ler. <think>...</think> token format, chain-of-thought trace dataset, R1 reasoning capability'sini 7-8B'ye sıkıştırma. RTX 4090'da kendi reasoning FT'ni yapmak: 1000 R1-traced example yeter.
- 10
Yi-1.5 / InternLM2.5 / Aya Expanse: Underdog'ların TR-MMLU Karşılaştırması
Llama / Qwen / Gemma popüler ama tek seçenek değil. Yi-1.5 (01.AI, 6B/9B/34B), InternLM2.5 (Shanghai AI Lab, 7B/20B), Aya Expanse (Cohere, 8B multilingual) — TR'de hangisi parlıyor? RTX 4090'da aynı reçeteyle 4 model karşılaştırması.
- 11
Comparative Lab: 10 Modelin Aynı Reçete + Aynı Veriyle FT'si — Tablo Karar Verir
Cookbook'un Part III capstone'u: 10 modeli (Llama 3.1/3.2/3.3, Qwen 2.5/3, Mistral, Gemma 3, Phi-4, SmolLM3, R1-Distill, Aya Expanse) aynı 50K TR Alpaca üzerinde aynı hyperparam'larla FT et. Loss curve overlay, TR-MMLU + MT-Bench tablo, GPU saat, elektrik maliyet, kalite başına maliyet — hangi model hangi senaryoya?
Part IV — Mid-Large Models (13B-70B+) + Distributed Internals
- 1
PyTorch FSDP Anatomi: FULL_SHARD vs SHARD_GRAD_OP vs HYBRID_SHARD + Mixed Precision Policy
FSDP — modern PyTorch'un distributed training silahı. 3 sharding strategy (FULL_SHARD param+grad+optim sharded, SHARD_GRAD_OP yalnız grad+optim, HYBRID_SHARD intra-node FSDP + inter-node DDP), MixedPrecision policy (param/reduce/buffer dtype'ları), BackwardPrefetch, auto_wrap_policy (transformer layer-wise). 8×H100 SXM'de Llama 3.3 70B QLoRA tam reçete.
- 2
FSDP2 (fully_shard): Per-Parameter Sharding + DTensor + 2024+ PyTorch Yeniliği
FSDP2 (PyTorch 2.4+) — eski FSDP'in evrimi. Per-parameter sharding (FlatParameter pattern'ı atıldı), DTensor backbone, FQN (Fully Qualified Names) ile resumable checkpointing, mixed precision daha rahat. Llama 3.3 70B + FSDP2 + DCP (Distributed Checkpoint) reçetesi.
- 3
DeepSpeed ZeRO Stage 1/2/3 + ZeRO-Infinity: NVMe Offload + 70B Single GPU?
ZeRO (Microsoft) — sharding'in babası, FSDP'ten önce. Stage 1 (optimizer state shard), Stage 2 (+ gradient shard), Stage 3 (+ param shard, FULL_SHARD ekvivalent). ZeRO-Infinity ile NVMe'ye spillover → 70B single GPU **theoretically mümkün** (yavaş ama mümkün). Karar matrisi: ZeRO vs FSDP — hangisi?
- 4
Tensor Parallelism (Megatron): Column-Parallel + Row-Parallel Linear — Matrix'i Böl
Megatron-LM (NVIDIA) Tensor Parallel: bir matrix'in **kendi** içinde GPU'lar arasında bölünmesi. Column-parallel linear (output channels split), row-parallel linear (input channels split), all-reduce/gather pattern. 8×H100'de TP=2 vs TP=4 karar matrisi. FSDP+TP combine = 2D parallelism.
- 5
Pipeline Parallelism: GPipe + 1F1B + Interleaved — Bubble Overhead Matematiği
Pipeline Parallel: model'in **layer'ları** GPU'lara dağıtılır (layer 1-10 GPU0, layer 11-20 GPU1, ...). Forward+Backward'ı pipeline-stream'le. GPipe (basit + bubble overhead), 1F1B (memory efficient), Interleaved 1F1B (Megatron, bubble %50 azaltır). 70B + 4-node × 8 GPU senaryo.
- 6
Sequence Parallel + Context Parallel: Ulysses + Ring Attention + 1M Context
Long-context FT'in fizik sınırını aşmak: sequence/context'i GPU'lar arasında böl. DeepSpeed-Ulysses (sequence parallel — head-wise), Ring Attention (Berkeley, sequence-wise), Megatron Sequence Parallel. 1M token context'i mümkün kıl. Kimi-1.5 (Moonshot) 2M context reçetesinin teknik altyapısı.
- 7
Llama 3.3 70B QLoRA + FSDP: 8×H100 SXM Reçetesi (5.6 Saat 1 Epoch)
Llama 3.3 70B-Instruct'in tam Lab reçetesi: 8×H100 SXM cloud (Lambda $24/saat), QLoRA NF4 + FSDP FULL_SHARD, bitsandbytes 4-bit, gradient checkpointing, paged AdamW. 50K TR Alpaca üzerinde 1 epoch 5.6 saat. TR-MMLU baseline 55.4 → fine-tune 60.8.
- 8
Qwen 2.5 32B / 72B Math + Code Mastery: GSM8K + MATH-500 + HumanEval FT Reçetesi
Qwen 2.5 32B/72B — math + code'da Llama 70B'yi geçen baseline. Math-heavy dataset mix (GSM8K + MATH + AIME + MetaMathQA), step-by-step CoT format, code execution loop, hyperparameter farkları (lr daha düşük, ep daha çok). 4×H100 80GB QLoRA 32B reçetesi (~3 saat).
- 9
Command-R / Command-R+ + Granite 3: RAG-Native + Citation FT + Enterprise Tier
Cohere Command-R (35B) / Command-R+ (104B) — RAG-tuned baseline, citation token training native. IBM Granite 3 (2B/8B + 32B/MoE) — Apache 2.0 enterprise tier, governance odaklı. RAG-FT dataset format, citation accuracy ölçümü, tool-calling, 4×H100 80GB Command-R+ QLoRA reçetesi.
- 10
Hybrid SSM Modelleri: Falcon-Mamba + Zamba2 — KV-Cache Olmadan Long Context
State Space Model (SSM, Mamba) — Transformer'a alternatif mimari. KV-cache yok, inference complexity O(N) (Transformer O(N²)). Falcon-Mamba 7B, Zamba2 (Mamba + transformer hibrit). FT pattern Transformer'dan farklı: state'ler reset, gradient flow, learning rate hassaslığı. RTX 4090'da reçete.
- 11
Multi-Node Run + Fault-Tolerant Training: 2 Node × 8 H100 NCCL Cluster
Cluster training'in gerçeği: node failure'lar olur, NCCL hang olur, checkpoint corrupted olabilir. Cookbook'un fault-tolerant reçetesi: NCCL_TIMEOUT, watchdog, signal handling (SIGUSR1), elastic launcher (torchrun --rdzv_backend=c10d), graceful preemption resume. 70B model 2 günlük training'in 'survival kit'i.
Part V — MoE Internals & Fine-Tuning
- 1
MoE Mathematics: Top-K Router + Softmax + Noise + Auxiliary Load-Balancing Loss
MoE'nin kalbi router. Top-K routing matematiksel derivation (Shazeer 2017, Switch Transformer 2021), token-to-expert assignment, expert capacity factor (overflow vs underutilization), load balancing loss (aux loss), softmax temperature ve top-K=2 vs top-K=1 trade-off. Mixtral 8×7B'nin gerçek router config'i.
- 2
Mixtral 8×7B / 8×22B FT: Router Collapse Problemi + Aux Loss Weight Kalibrasyon
Mixtral'in FT'sinde en sık karşılaşılan bug: **router collapse** — eğitim ilerledikçe bir expert dominat olur, diğerleri dead. Capacity overflow, aux loss weight'in dinamik adaptasyonu, expert balance metrics ölçümü, FSDP + MoE uyumu (expert parallelism). 4×H100 80GB Mixtral 8×7B QLoRA reçetesi (~4 saat).
- 3
DeepSeek-V3 / R1 (671B, 37B Active): Shared Expert + Fine-Grained Routing — LoRA Hangi Parçaya?
DeepSeek-V3 (671B param, 37B active) — modern MoE'in en iyi açık örneği. Shared expert (her token'a giden 'common knowledge') + 256 routed expert (fine-grained). DeepSeek-R1 aynı mimari + RL ile reasoning. RTX 4090'da impossible; cookbook'un cloud reçetesi 16×H100 NDR IB + ZeRO-Infinity + expert parallelism.
- 4
Qwen3-MoE + Llama-4-MoE Pattern: Generic MoE FT Reçetesi (8×H100 Baseline)
Qwen3-MoE (30B-A3B, 235B-A22B) ve Llama-4-MoE (Behemoth, Maverick, Scout) — 2025'in yeni MoE jenerasyonu. 'Generic MoE FT pattern' — hangi MoE modeli karşına çıkarsa aynı disipline uyarlanır. Common chat template, router-aware LoRA, expert-targeted SFT. 8×H100 baseline reçete.
- 5
Sparse Upcycling: Dense Model'i MoE'ye Çevirme — Qwen2-MoE Technique Reconstruction
Sparse Upcycling (Komatsuzaki et al. 2022) — dense pre-trained model'i MoE'ye çevirip continual pre-train ile uzmanlaştırma. Mevcut FFN'i N kez kopyala, router ekle, training devam et. Pre-train'in scratch'tan çok daha ucuz. RTX 4090'da Qwen 2.5 7B → 7B-MoE (8 expert) conversion lab.
- 6
Expert Specialization Probe: Token Routing İstatistikleri + Dil/Domain Ayrışması
MoE'nin sırrı: bazı expert'ler matematiğe, bazıları koda, bazıları Türkçe'ye, bazıları formal yazıya 'uzmanlaşır'. Bu specialization'ı ölçmek için probe: domain-specific test prompts (math, code, TR-chat) ver, hangi expert'ler hangi prompt'ta aktif olduğunu sayısallaştır. Mixtral 8×7B'in TR specialization map'i.
- 7
MoE Quantization & Inference: Expert Offload + Dynamic Routing Under Quant
MoE'lerin inference'ı dense'lerden farklı: bazı expert'ler 'cold' (nadir kullanılır) → CPU/disk offload. Dynamic routing × quantization etkileşimi (router'ın quant tolerance'ı), MoE-spesifik vLLM tuning, Mixtral AWQ + sparse expert loading. RTX 4090'da Mixtral 8×7B serving (~140 tok/s).
Part VI — Vision-Language Multimodal FT
- 1
VLM Mimari Anatomisi: Vision Encoder + Projector + LLM Backbone — Detaylı Diseksiyon
VLM'in 3 ana bileşeni: Vision encoder (SigLIP-400M, ViT-G/14, EVA-CLIP), Projector (MLP / Q-former / Resampler / Cross-attention), LLM backbone (Llama/Qwen/Phi). Token interleave format, image token allocation, position encoding harmoni, 2D/M-RoPE patches. Her popüler VLM family için arch tablosu.
- 2
LLaVA-1.5 / 1.6 / OneVision: 2-Stage Training + Projector Pretrain + Instruction Tune
LLaVA'nın klasik 2-stage training reçetesi: (1) Projector-only pretrain (LAION-CC-SBU 558K image-caption pair üzerinde), (2) End-to-end instruction tune (LLaVA-Instruct-150K + custom). Freeze strategy ablation (vision frozen vs unfrozen, LLM frozen vs unfrozen). RTX 4090'da LLaVA-1.6 Mistral 7B FT.
- 3
Llama 3.2 Vision 11B / 90B: Cross-Attention Adapter + Multi-Image FT
Llama 3.2 Vision — Meta'nın cross-attention adapter yaklaşımı (LLaVA MLP'sinden farklı). Vision encoder ViT-H/14, LLM ile **interleaved cross-attention layers** ile birleşir. Multi-image FT, image+text interleave format, RTX 4090'da 11B QLoRA marjinal (~22 GB), 90B cloud only.
- 4
Qwen 2.5-VL: Dynamic Resolution + M-RoPE + Türkçe OCR FT (Fatura/Dilekçe)
Qwen 2.5-VL (3B/7B/72B) — modern multimodal şampiyonu. **Dynamic resolution** (224×224 fixed yok), **M-RoPE** (temporal + height + width RoPE), document understanding, video, multilingual. Türkçe fatura/dilekçe OCR FT'i uçtan uca: dataset hazırlığı, vision tower freeze, LoRA target, accuracy ölçümü.
- 5
Pixtral 12B + Pixtral Large: Mistral Multimodal — Resolution-Free + Apache 2.0
Pixtral 12B (Mistral Nemo 12B + 400M ViT) + Pixtral Large (124B) — Mistral'in açık multimodal'ı. Apache 2.0, resolution-free, EU AI Act-compliance friendly. 7-32 image per context, 128K context. RTX 4090'da Pixtral 12B QLoRA marjinal (~22 GB).
- 6
InternVL2.5 + Idefics3 + Phi-4-Multimodal: Karşılaştırmalı Arch Tour
Daha az popüler ama önemli VLM'ler: InternVL2.5 (Shanghai AI Lab, 8B-78B), Idefics3 (HuggingFace), Phi-4-Multimodal (Microsoft, 5.4B vision+text). Her birinin mimari + FT pattern karşılaştırması. Niş use-case (medical/document/scientific) için hangisi parlıyor.
- 7
Vision Tower'ı Hangi Aşamada Freeze? — Probing Lab + Downstream Eval
VLM FT'inin en sık tartışılan kararı: vision encoder'ı freeze etmek mi unfreeze etmek mi? Frozen → vision capability korunur, eğitim hızlı, daha az risk. Unfrozen → kalite +%2-5 ama eğitim 3-5x yavaş + over-fit riski. Ablation: 5 farklı freeze stratejisi karşılaştırma, RTX 4090 + Qwen 2.5-VL 7B.
- 8
Document VLM FT: DocVQA + ChartQA + TableVQA + Türkçe Fatura/Dilekçe Dataset
Document AI use-case'leri: DocVQA (document Q&A), ChartQA (grafik anlama), TableVQA (tablo extraction). TR-spesifik dataset üretimi: synthetic fatura + dilekçe + sözleşme images, structured field extraction. Qwen 2.5-VL 7B baseline → FT → field accuracy %76 → %94.
- 9
Grounding FT: Bounding-Box Token Format + RefCOCO-Tarzı Görev
VLM'in 'göstermek' özelliği: 'köpeği işaret et' → [0.32, 0.45, 0.58, 0.71]. Bounding box (bbox) token format: <bbox>x1,y1,x2,y2</bbox> veya normalize 0-1000 koordinatlar. RefCOCO dataset, grounding evaluation (IoU), Qwen 2.5-VL'in native grounding desteği.
- 10
Video LLM FT: LLaVA-NeXT-Video + VideoLLaMA3 + Frame Sampling Stratejisi
Video LLM'i — image'in temporal extension'ı. LLaVA-NeXT-Video, VideoLLaMA3, Qwen 2.5-VL native video. Frame sampling (uniform vs adaptive), temporal token compression, long-video Q&A (>1 saat). RTX 4090'da Video LLM FT — short-clip (10-30 sn) ile pratik.
Part VII — Speech & Audio Fine-Tuning
- 1
Whisper Architecture: Log-Mel Spectrogram + Encoder-Decoder + Language Tokens
Whisper (OpenAI 2022) — speech recognition'ın altın standardı. Anatomi: 80-bin log-mel spectrogram input, 12-32 layer encoder + 12-32 layer decoder transformer, BPE tokenizer (50K + multilingual + tasks), language tokens (\`<|tr|>\`), task tokens (\`<|transcribe|>\` vs \`<|translate|>\`), timestamp tokens. Model variants: tiny (39M) → large-v3 (1.5B) → large-v3-turbo (809M).
- 2
Whisper Large-v3 / Turbo TR FT: Common Voice + Bilkent + Mozilla TR + Custom Corpus
Türkçe Whisper FT — RTX 4090'da rahat (large-v3 ~6 GB, large-v3-turbo ~3 GB). Common Voice TR (180 saat), Bilkent TR corpus, Mozilla TR. WER (Word Error Rate) ölçümü, alfa/diacritic doğruluğu, Türkçe-spesifik tokenize fixes. Baseline WER %12 → FT WER %6 (~2× iyileşme).
- 3
Türkçe Lehçe FT: Karadeniz / Ege / Doğu Anadolu Telaffuzu + Dataset Toplama
Standart Türkçe baseline Whisper iyi ama lehçelerle zorlanır (Karadeniz 'cik' eki, Doğu Anadolu sertlikleri, Ege 'ce'lik). Lehçe ses kayıt protokolü (rıza dahil), 50-100 saat regional corpus, FT + WER per-lehçe. Production: müşteri hizmetleri, sağlık (köy hizmetleri).
- 4
Streaming ASR: faster-whisper + distil-whisper — Real-Time Latency Budget < 200ms
Whisper offline (batch) hızlı ama streaming için optimize değil. Solution: **faster-whisper** (CTranslate2 + INT8), **distil-whisper** (50% layer azaltılmış student). Latency budget < 200 ms first-token, 70× real-time. RTX 4090'da Türkçe streaming setup: chunking, voice activity detection (VAD), partial hypothesis.
- 5
Audio LLM: Qwen2-Audio + Phi-4-Multimodal Audio Branch — Ses Anlama + Cevap
Audio LLM = Whisper'ın ötesi. Sadece transcribe etmiyor, ses içeriğini **anlıyor** ve cevap veriyor. Qwen2-Audio (Alibaba, 7B), Phi-4-Multimodal audio branch. Ses-spesifik task'lar: emotion recognition, music understanding, environmental audio Q&A. RTX 4090'da Qwen2-Audio FT reçetesi.
- 6
TTS FT: XTTS-v2 + F5-TTS + Kokoro + Parler-TTS — Türkçe Ses Klonlama (Rıza + KVKK)
Text-to-Speech FT — TR'de yetersiz baseline'lar. XTTS-v2 (Coqui), F5-TTS (zero-shot voice cloning), Kokoro (StyleTTS2-based), Parler-TTS (description-controlled). 5-10 dakika referans ses ile kişiye özel voice clone. RTX 4090'da 1-3 saat FT. **Etik: rıza + KVKK + deepfake risk**.
- 7
Speaker ID + Diarization FT: pyannote.audio + WavLM — Çoklu Konuşmacı Ayrımı
Toplantı/çağrı merkezi transkripti: 'kim konuşuyor + ne diyor'. pyannote.audio (HF), WavLM speaker embedding, diarization pipeline (VAD → embedding → clustering). Çağrı merkezi case: müşteri vs operatör ayrımı, RTX 4090 + 100 saat TR çağrı dataset üzerinde FT.
Part VIII — Code Models & Repo-Level FT
- 1
FIM (Fill-in-the-Middle) Format: Prefix + Suffix → Middle Token Mantığı
Code completion'ın bel kemiği: FIM. Klasik LLM next-token prediction'ı kod için yetersiz — gerçek IDE'de imleç ortada, prefix + suffix var. FIM training: \`<fim_prefix>\`{prefix}\`<fim_suffix>\`{suffix}\`<fim_middle>\`{middle} format. Dataset preparation: existing code'u random split + transform. Bayraghani et al. 2022 paper'ı temel.
- 2
Qwen2.5-Coder 7B/14B/32B: Repo-Level Context (16K-128K) + FIM Native FT
Qwen2.5-Coder ailesi — 2025'in en güçlü açık code LLM. FIM native, 128K context, repo-level context için optimize. 32B HumanEval 92.7%, SWE-Bench-Lite 31.6%. RTX 4090'da 7B QLoRA 40 dk; 32B cloud H100 80GB tek-GPU.
- 3
DeepSeek-Coder-V2 16B / 236B: MoE Code Model + Multi-File Context
DeepSeek-Coder-V2 (DeepSeek 2024) — MoE arch (16B / 236B), Apache 2.0 lisansla en güçlü açık code LLM'lerden. 338 programming language, 128K context, multi-file repo understanding. RTX 4090'da 16B (2.4B active) QLoRA mümkün; 236B cloud only.
- 4
StarCoder 2 + CodeLlama: BigCode RAIL Lisans Labirenti + 600+ Programming Languages
StarCoder 2 (BigCode + ServiceNow + HF, 2024) — 600+ programming language, BigCode RAIL lisans (responsible AI). CodeLlama (Meta, 2023) — Llama 2 base, daha eski. Lisans nuances: ticari kullanım kısıtları, derivative work koşulları. Cookbook tavsiyesi: Qwen2.5-Coder > DeepSeek-Coder-V2 (Apache 2.0) > StarCoder 2 (RAIL) > CodeLlama (eski).
- 5
Codestral + Codestral Mamba: Mistral Kod Stack'i — Apache 2.0 Tek Apache
Codestral 22B (Mistral 2024, non-commercial license) + **Codestral Mamba 7B** (Apache 2.0, Mamba SSM arch). Codestral Mamba — TR mühendis için tek Apache 2.0 Mistral kod modeli. SSM arch'ın code'a uygulanması, long-context advantages.
- 6
Custom Stack FT Lab: Mid-Size Repo (~50K LoC) Üzerinde Repo-Tuned Model
Şirket internal kod tabanına özel FT: 50K LoC Python+TypeScript repo. Dosya hiyerarşisi koruma, internal symbol awareness (class/func adları), test file pairing, commit history mining (good/bad code), 7B model RTX 4090'da 4-6 saat FT.
- 7
Code Eval: HumanEval + MBPP + BigCodeBench + LiveCodeBench + SWE-Bench-Lite
Code LLM'in standart benchmark suite'i: HumanEval (164 Python problem), MBPP (974 Python), BigCodeBench (1140 calls 139 lib), LiveCodeBench (datas leak-resistant), SWE-Bench-Lite (300 real GitHub issue fix). Pass@1 vs pass@10 metric, code execution sandbox. RTX 4090'da bench koşma.
- 8
Code-LLM Safety: Secret Leak Memorization Probe + License-Tainted Code Filter
Code LLM'ler eğitim verilerinden **API key, password, SSH private key** ezberleyebilir → production'da leak. Tespit: memorization probe (training set'ten random snippet → model devam ettiriyor mu?), license-tainted code (GPL etkili viral) filtering. BigCode StarCoder leak incident dersi.
Part IX — Türkçe-First & Yerelleştirme Mühendisliği
- 1
TR Corpus İnşası: mC4-TR + OSCAR-TR + KAPAR + Wikipedia + Common Crawl + Kütüphane Scraping
100GB+ Türkçe corpus toplamak: mC4-TR (35GB), OSCAR-TR (45GB), KAPAR (TBMM tutanakları), Wikipedia TR (2GB), Common Crawl filter (50-200GB potansiyel), kütüphane scraping (TR Devlet Kütüphanesi, açık eserler). Lisans ve KVKK dikkati. RTX 4090 + 64GB RAM ile pratik download/tokenize pipeline.
- 2
TR Quality Pipeline: KenLM Perplexity + Slur/PII Filter + Educational-Value
Ham TR corpus'tan kaliteli FT data'ya: KenLM 5-gram TR perplexity (gibberish/MT artifact filter), TR slur/küfür filter, TR PII detection (TC kimlik no, telefon, e-mail), educational-value scorer (FineWeb adaptasyonu). RTX 4090'da 100GB TR corpus 4 saatte temizleme.
- 3
Tokenizer Extension Lab: Llama-3 → +8K TR Token + Embedding Init
Part II Ders 2.2'nin TR-specific tam Lab versiyonu. Llama 3.1 tokenizer'a 8K en sık TR token ekle, byte-decomposition + SVD init dene, perplexity delta ölç, 500M token continual pre-train sonrası downstream SFT'de tokens/word verimi 3.2 → 2.1.
- 4
Continual Pre-training TR: Catastrophic Forgetting Önleme + Replay Buffer
Continual pre-train ana risk: model TR öğrenirken İngilizce capability'sini kaybediyor. Replay buffer (her batch'te %10-15 EN örnek), LR warmup tasarımı, learning rate'in pre-train original'in 1/10-1/50'si olması gerektiği. RTX 4090 + Llama 8B + 2B token TR continual PT 24 saatte mümkün.
- 5
TR SFT: Quality > Quantity — 5K Curated TR Data > 100K Noisy
TR SFT'in ana içgörüsü: az ama kaliteli veri çok ama gürültülü veriden üstün. 5K human-curated TR > 100K MT-translated kötü Alpaca. TR-Alpaca, OASST-TR, Mukayese, kendi domain TR data nasıl harmanlanır. RTX 4090'da curated 5K dataset 12 dakikada 1 epoch.
- 6
TR Models Reverse Engineering: Trendyol-LLM + Cosmos-LLaMA + KanaryaTR
Türkiye'nin açık TR LLM'leri: Trendyol-LLM (Trendyol e-ticaret odaklı), Cosmos-LLaMA (Cosmos AI Lab), KanaryaTR (Boğaziçi NLP), TURNA, AnatoliaLLM. Her birinin model card okuma, training pipeline reverse-engineering, hangi base + data + technique. Kendin için ne çıkarabilirsin.
- 7
TR Embedding FT: BGE-M3, jina-v3, nomic-embed TR Adaptation + MTEB-TR Eval
RAG sistemleri için TR embedding model FT'si: BGE-M3 (multilingual, TR baseline iyi), jina-embeddings-v3, nomic-embed-text. TR-specific query/document pair üretimi, contrastive learning (InfoNCE), MTEB-TR benchmark. RTX 4090'da BGE-M3 TR FT 6 saat.
- 8
TR Reranker FT: bge-reranker + jina-reranker — Pair Generation Recipe
RAG pipeline'ın 2. aşaması: reranker. bge-reranker-v2-m3 (TR'de baseline) + jina-reranker-v2 + custom TR FT. Query-doc relevance score, cross-encoder mimari, hard-negative mining, RTX 4090 + 50K TR pairs 4 saatte FT.
- 9
TR Agglutination Pitfalls: Eklerin Tokenize Edilmesi + İ/I/ı/i Casefold Bug
Türkçe agglutinative — ekler kelimeye eklenir. Tokenizer'lar 'evlerimizdekiler' kelimesini parçalarken sık hata yapar. İ/I/ı/i casefold (yaygın bug), apostrof normalize (TR \"\" vs ASCII \"\"), UTF-8 NFC vs NFD encoding tutarsızlığı. Cookbook'un TR mühendis için 'sessiz katil' bug listesi.
- 10
TR Benchmarking Suite: TR-MMLU + Mukayese + TruthfulQA-TR + BBQ-TR + Custom
TR'de FT modelini eval etmenin standart suite'i: TR-MMLU (genel knowledge, Boğaziçi), Mukayese (TR NLP tasks), TruthfulQA-TR (hallucination), BBQ-TR (bias). lm-eval-harness ile otomatize. CI'a entegrasyon, regression alarms.
Part X — Quantization Engineering
- 1
Quantization Matematiği: Symmetric/Asymmetric, Per-Tensor/Per-Channel/Per-Group, QAT vs PTQ
Quantization'ın matematiksel temeli: floating-point → integer mapping formülü, symmetric vs asymmetric quantization, per-tensor vs per-channel vs per-group granularity, QAT (Quantization-Aware Training) vs PTQ (Post-Training Quantization), bit-width seçimi. RTX 4090'da Llama 8B'nin 32 layer'ında her tensor'ün quantization karakteristiği.
- 2
GPTQ Algoritması: Optimal Brain Quantization + Hessian Update — RTX 4090'da 12 Dakikada Llama 8B
GPTQ (Frantar et al. 2022) — LLM weight quantization standardı. Optimal Brain Quantization theory (LeCun 1990), Hessian inverse update, error compensation, group quantization. RTX 4090 + auto-gptq ile Llama 3.1 8B'yi 12 dakikada int4'e quantize et. WikiText-2 perplexity delta < %2.
- 3
AWQ Algoritması: Activation-Aware Salient Channel Scaling — Outlier'lara Saygı
AWQ (Lin et al. 2023) — GPTQ'nun aktivasyon-bilinçli alternatifi. Activation outlier'larını protect eden 'salient channel scaling' tekniği. autoawq lib ile Llama 3.1 8B'yi RTX 4090'da 8 dakikada int4'e quantize, GPTQ'dan biraz daha iyi WikiText-2 perplexity + vLLM serving uyumu daha kolay.
- 4
GGUF K-Quants Block Structure: Q2_K → Q8_K + llama-quantize Perplexity Tablosu
GGUF — llama.cpp'nin native format'ı, CPU/edge inference için yaygın. K-quants block structure (Q2_K → Q8_K), her bit-width için ayrı struct, llama-quantize ile dönüşüm, perplexity-vs-size eğrisi. RTX 4090'da bf16 → Q4_K_M conversion 5 dakika, Q4 GGUF 4.6 GB → CPU/Pi/iPhone deploy.
- 5
EXL2 (ExLlamaV2): Variable Bitrate Quantization — Hangi Layer Hangi Bit?
EXL2 — ExLlamaV2'nin native format'ı. Her layer için **farklı bit-width** seçebilir, hassas layer'lara fazla bit ayırır. Calibration ile her layer'ın 'sensitivity'sini ölç, bütçe içinde optimal dağılım. RTX 4090 önündeki tüketici için en hızlı LLM inference (vLLM yerine ExLlamaV2 batch=1'de 1.5-2x).
- 6
FP8 Training: H100 Native, RTX 4090'da Prematur — Transformer Engine Internals
FP8 = AI compute'un geleceği. H100 native (FP8 Tensor Cores + WGMMA + Transformer Engine). RTX 4090 (Ada) FP8 GEMM destekler ama ekosistem hazır değil — fallback yaygın, training pipeline buggy. Cookbook'un kuralı: RTX 4090'da bf16 training, FP8 inference (vLLM). H100'de FP8 training cookbook Part XIII Triton'da derin.
- 7
Int4 QLoRA NF4 Internals: Double Quantization + Paged Optimizer + Bitsandbytes Source Tour
NF4 (4-bit NormalFloat) — QLoRA'nın çekirdeği. Normal distributed weights için optimal 4-bit kuantasyon. Double-quantization (scale tensor'unu da quantize et) ile ek %0.4 bit/param tasarrufu. Paged AdamW (CPU RAM'e overflow). bitsandbytes source-code tour.
- 8
FP8 Inference: vLLM SmoothQuant + TensorRT-LLM — RTX 4090'da Production-Ready
FP8 training prematur olsa da FP8 inference 2026'da production-grade. vLLM'in native FP8 (Llama 3.1+/Qwen 2.5+ destek), TensorRT-LLM SmoothQuant, AWQ-marlin INT4 vs FP8 karşılaştırma. RTX 4090'da Llama 3.1 8B FP8 dönüşüm + serving (~120 tok/s vs bf16 95).
- 9
Calibration Dataset Engineering: Domain-Aware Quantization — Senin Domain'in İçin İdeal Set
GPTQ/AWQ kalite calibration data'ya çok bağlı. WikiText-2 default ama production use-case'ine göre değişir. Türkçe production'da TR calibration → %30 daha iyi TR-MMLU post-quant. Code domain'de GitHub Python snippet. Math domain'de GSM8K. Calibration size sweet spot (128-512 sample).
- 10
Round-trip Eval: Pre/Post Quant Tablo — TR-MMLU + MT-Bench + Niş Benchmark
Cookbook'un Part X capstone'u: aynı modeli bf16, AWQ int4, GPTQ int4, EXL2 4.5bpw, GGUF Q4_K_M, FP8 olarak quantize et ve karşılaştır. TR-MMLU, MT-Bench-TR, niş custom benchmark (Türkçe çağrı merkezi sample). Karar matrisi: hangi quant senin use-case'ine?
Part XI — Alignment & Preference Optimization
- 1
RLHF Klasik: Reward Model + PPO + KL Constraint — Niye Üretim Seti Terk Etti?
RLHF (Christiano et al. 2017, InstructGPT 2022) — modern alignment'ın temeli. 3 aşama: SFT base + reward model train + PPO with KL constraint. Niye yarın ortada kayboldu? PPO'nun instability'si, value head'in maintenance burden'ı, DPO'nun pratik üstünlüğü. RTX 4090'da TRL ile mini-RLHF demo.
- 2
DPO Math: Bradley-Terry → Loss Function Derivation — Niye Reward Model Gerekmez?
DPO (Rafailov et al. 2023) — RLHF'in matematiksel ekvivalenti, ama TEK aşama. Bradley-Terry preference model → KL-constrained RL objective → closed-form policy gradient → SFT-like loss. β hiperparametresinin gradient üzerindeki etkisi, RTX 4090'da DPO TRL DPOTrainer Lab.
- 3
DPO Implementation From Scratch: TRL Source-Code Olmadan Tek Sayfa Code
TRL DPOTrainer kullanmadan kendi DPO kayıp fonksiyonunu yaz: log-probabilities computation, reference model handling, loss formula, gradient backprop. ~80 satır PyTorch. Hata yaparsan nerede yapıldığını anlamak için. Cookbook'un derinlemesine implementation dersi.
- 4
ORPO: Odds Ratio Preference Optimization — Single-Stage SFT+Alignment
ORPO (Hong et al. 2024) — DPO'ya alternatif, SFT base gerektirmiyor. SFT loss + odds-ratio preference loss tek seferde. Ref model gerek yok → memory tasarrufu. Reference-free training, λ hyperparameter, RTX 4090 ORPO Lab.
- 5
KTO (Kahneman-Tversky Optimization): Pair Değil Tek-Yönlü Feedback'ten Alignment
KTO (Ethayarajh et al. 2024) — production deploy'da en çok karşılaşılan feedback: 'thumbs up' / 'thumbs down'. Pair değil. Klasik DPO bu data ile çalışmaz. KTO bu boşluğu doldurur: prospect theory (Kahneman-Tversky) ile utility function. Production'da continuous learning loop.
- 6
DPO Ailesi: SimPO + IPO + CPO + RPO + APO — 5 Varyantın Karar Matrisi
DPO ailesi 2023-2024'te genişledi: SimPO (Meng et al.) — length-normalized, IPO (Azar et al.) — overfit fix, CPO (Xu et al.) — KL ratio fix, RPO (Iterative) — online iterative, APO (anchored). Her birinin loss formula, hangi durumda hangisi, RTX 4090 hızlı karşılaştırma.
- 7
GRPO (Group Relative Policy Optimization): DeepSeek-R1'in Verifiable Reward Reçetesi
GRPO (DeepSeek 2024) — PPO'nun simplified varyantı. Critic/value head yok. Bir batch'te G adet farklı response sample et, group içinde **göreli reward**'ları normalize et. Verifiable rewards (math correctness, code execution) ile reasoning RL'i mümkün kıl. RTX 4090'da Qwen-7B + GRPO + GSM8K accuracy +%5-8.
- 8
Reward Function Engineering: Verifiable, Math, Code, Format, Length, Diversity
GRPO/PPO için reward function = success'in tanımı. Math (regex/SymPy), code (exec + test), format (chat template adherence), length (anti-rambling), diversity (n-gram penalty), composability. Cookbook'un reward function tasarım rehberi.
- 9
Process Reward Models (PRM): Step-Level Supervision — PRM800K Dataset
PRM = her reasoning step için ayrı reward. Outcome-only (final answer) yerine her ara adım kaliteyi öğretiyor. OpenAI PRM800K dataset, Math-Shepherd otomatik PRM generation, Step-DPO. Test-time tree search (Best-of-N, MCTS) için temel. RTX 4090'da PRM train + use.
- 10
Constitutional AI + RLAIF: Anthropic Reçetesinin Open Replication
Anthropic Constitutional AI (Bai et al. 2022): AI'in kendi cevaplarını 'principle'lara göre eleştirip iyileştirmesi. RLAIF: AI feedback ile alignment (human yerine LLM judge). Cookbook'ta open replication: principle list, self-critique loop, revised dataset üretimi, RTX 4090'da küçük scale CAI Lab.
- 11
Reward Hacking Diagnostics: Gaming Detection, Length Bias, Sycophancy Probe
Modeller reward function'ı 'hack' eder — yanlış yoldan reward kazanır. Length bias (uzun cevaplar = yüksek reward), sycophancy (kullanıcıya aşırı agreeable), format gaming (chat template yapısını kötüye kullanma), repetition. Tespit pipeline: ablation, holdout probe, qualitative review. Anthropic'in 'reward over-optimization' raporundan dersler.
Part XII — Reasoning Model FT (R1-style)
- 1
Reasoning Architecture: \<think\> Token + Segregated vs Interleaved CoT Karar Matrisi
Reasoning model'leri ikiye ayrılır: (1) **Segregated** — \<think\>...\</think\> bloğu (DeepSeek-R1, o-series) içinde reasoning, sonra final answer; (2) **Interleaved** — reasoning + answer karışık (klasik CoT, GPT-4-1106). Her birinin avantajları, FT zorlukları, kullanıcı UX'i. Token bütçesi yönetimi.
- 2
Reasoning Trace Dataset Üretimi: Teacher Distillation + Self-Bootstrapping
Reasoning SFT için trace data üretimi: (a) Teacher distillation — DeepSeek-R1 (MIT lisans!), Gemini-thinking, o3 API çağrısıyla trace topla; (b) Self-bootstrapping — küçük model trace üret + verifiable filter ile doğru olanları tut; (c) Hybrid. RTX 4090'da Llama 3.1 70B teacher local serve + 10K trace üretimi (~24 saat).
- 3
SFT on Reasoning Traces: Llama-8B + R1-Distilled Traces (8K → 32K Context)
Reasoning trace dataset hazırsa SFT teknik olarak basit ama detay önemli: \<think\> token vocab'a ekleme, embedding init, context length 32K (R1 traces 5-15K token), loss masking (think tokens loss'a girer veya girmez?), epoch count. RTX 4090 + Llama 3.1 8B + 1000 R1 trace 1 epoch ~50 dakika.
- 4
GRPO RL Stage: Math + Code Reward — Convergence Sayıları (Qwen-7B + GSM8K +%5-8)
Reasoning model'in son aşaması: GRPO ile RL. SFT base'in üzerine math correctness + code execution reward'larıyla GRPO. Reward shaping (correctness 1.0, format 0.2, length penalty 0.001), advantage normalization, KL constraint. RTX 4090 + Qwen 2.5 7B-Instruct + GSM8K: 6-8 saat, accuracy +%5-8.
- 5
Long-CoT Stability: Repetition Collapse + Think-Loop Mitigation
Reasoning model'in en sık bug'u: **think-loop** — model sürekli aynı şeyi tekrar düşünüyor. Repetition collapse, length explosion (8K → 30K). Mitigation: entropy bonus, repetition penalty during training, max_think_tokens enforcement, reward shaping (length penalty), early-stopping heuristics.
- 6
Reasoning Eval: AIME 2024/2025 + MATH-500 + GPQA-Diamond + LiveCodeBench
Reasoning model'in standart eval suite'i: AIME 2024 (30 problem, USA Math Olympiad), AIME 2025 (yeni), MATH-500 (500 high-school competition), GPQA-Diamond (graduate-level science Q&A), LiveCodeBench (monthly-refreshed coding). pass@1 vs majority voting (pass@64) farkı. Cookbook standart eval pipeline.
Part XIII — Custom Kernels & Performance Surgery
- 1
FlashAttention v2/v3 Internals: Tile + Online Softmax + Hopper WGMMA
FlashAttention'ın matematiksel kalbi: tile-by-tile attention compute, **online softmax** (incremental running max + sum), backward recomputation strategy. v2 → v3 fark: Hopper WGMMA (warp-group matrix multiply), async memory, FP8 attention. Head-size constraint, deterministic mode, varlen variant.
- 2
Triton Crash Course: Block Pointer + Autotune + Masks — 50 Satırda GPU Kernel
Triton (OpenAI, 2021) — CUDA kadar hızlı, Python kadar kolay GPU kernel framework'ü. \`@triton.jit\`, \`tl.program_id\`, \`tl.arange\`, block pointer arithmetic, autotune decorator, mask-based load/store, shared memory abstraction. RTX 4090'da Triton vector add → matmul → softmax kernel'larını sıfırdan yaz.
- 3
Custom Triton Kernel Lab: Cross-Entropy + Ignore-Index — Unsloth-Style Speedup
PyTorch native \`F.cross_entropy(ignore_index=-100)\` LLM training'in en çağrılan kernel'larından biri. Naïve implementation Triton ile %30 daha hızlı yapılabilir. Cookbook'un Lab'ı: fused logits + softmax + CE + grad → tek kernel. Unsloth'un kullandığı pattern. RTX 4090'da 8B model FT throughput +%15.
- 4
Liger Kernel Tour: RMSNorm + SwiGLU + GeGLU + Fused Linear+CE — Source Reading
Liger Kernel (LinkedIn, 2024) — production-grade Triton kernel suite. Fused RMSNorm + dropout, SwiGLU + GeGLU + GeLU, RoPE rotary, fused linear+CE (memory tasarrufu), CrossEntropy chunked. RTX 4090'da Llama 3.1 8B FT throughput +%20, memory %30 azalma. Source-code okuyarak ne öğreneceğin: production Triton patterns.
- 5
PagedAttention (vLLM): Block Table + Copy-on-Write + KV-Cache Fragmentation
vLLM'in killer feature'i PagedAttention'ın derinlemesine anatomi: KV-cache'i 16-token block'lara böl, logical→physical block table mapping, copy-on-write (prefix sharing), fragmentation %0. CUDA implementation snippets, vLLM source reading. RTX 4090'da prefix cache hit-rate %50+ → throughput +%60.
- 6
torch.compile + Inductor: Reduce-Overhead + Dynamic Shapes + Recompile Watcher
PyTorch 2.x'in flagship feature'ı: torch.compile. Inductor backend (Triton kernel generation), 3 mod (default, reduce-overhead, max-autotune), dynamic shapes (recompile gözcüsü), CUDA graphs, FT training pipeline'a entegrasyon. RTX 4090 + Llama 3.1 8B FT throughput +%15.
- 7
CUDA Graph Capture: Static-Shape Inference Graph + Latency Tail Bitirme
CUDA Graph — kernel launch overhead'ini eliminating teknik. Bir compute graph'i tek seferlik 'capture' et, sonra 'replay' et — her replay 5-10 µs (kernel launch'un 30-50 µs'sinden çok daha az). Inference latency için kritik (özellikle decoded tokens fast-path). vLLM kullanır. Static-shape gerek (shape değişirse re-capture).
- 8
Speculative Decoding FT: Draft Model + EAGLE-2 + MEDUSA Head Training
Speculative decoding'in FT versiyonu: draft model'i target ile pair'le, kabul oranını maksimize et. EAGLE-2 head training (Li et al. 2024, +%94 throughput), MEDUSA multi-head training, target model frozen tutarak ek head'ler eğitme. RTX 4090 + Llama 8B target + MEDUSA 4-head ~2-3 saat training.
Part XIV — Closed-Source API Fine-Tuning
- 1
OpenAI GPT-4o-mini / GPT-4o / GPT-4.1 Fine-Tuning API: JSONL Şema + Cost + Dashboard
OpenAI fine-tuning API'sinin tam pratiği: JSONL format (chat messages), validation set, hyperparameter override (epochs/lr/batch), upload/monitor/download checkpoint flow. Cost telemetry: training token × $25/M (GPT-4o-mini), inference 1.5× base price. RTX 4090'da kendi 1000 TR örneğin GPT-4o-mini'yi 30 dakikada FT eder.
- 2
OpenAI o-series Reinforcement Fine-Tuning (RFT): Grader Function Design
OpenAI 2024 sonu RFT açıkladı: o-series modelleri (o1, o3, o4-mini) reasoning RL ile fine-tune et. **Grader function** — model output'una sayısal score veren senin yazdığın fonksiyon (math correctness, code execution, custom rule). Verifiable domain'ler için ideal. JSON-based grader spec.
- 3
OpenAI GPT-5/5.1 Distillation Pipeline: Stored Completions + FT API Karması
OpenAI 'Stored Completions' özelliği (2024+): GPT-5/5.1 ile inference yaptıktan sonra completion'ları sakla → distill için bedava dataset. Bu completion'ları GPT-4o-mini'ye FT et → small-model-big-knowledge transfer. Lisans önemli (sadece kendi API anahtarınla yaptığın completions).
- 4
Anthropic Claude FT: AWS Bedrock Custom + Prompt-Caching Alternatifi
Anthropic direkt FT API sağlamıyor (Anthropic Console'da yok). Iki workaround: (1) **AWS Bedrock Custom** ile Claude FT, (2) **Prompt caching** + few-shot prompting (no FT). Cookbook karar: çoğu use-case için prompt-caching + system prompt rafineman yeter; gerçek FT lazımsa Bedrock route.
- 5
Google Gemini 1.5/2.0/2.5 Tuning (Vertex AI): TR Data Upload + Evaluation Pipeline
Google Gemini 1.5/2.0/2.5 — Vertex AI üzerinden FT. TR data upload (GCS), JSONL format (OpenAI'a benzer), training job submission, evaluation pipeline native. Gemini Flash 1.5/2.0 cost-effective TR FT için iyi alternatif.
- 6
AWS Bedrock Customization: Nova / Claude / Llama / Mistral / Titan FT
AWS Bedrock üzerinden 5 farklı model family FT: Amazon Nova (Lite/Micro/Pro), Anthropic Claude (Bedrock-only route), Meta Llama, Mistral, Amazon Titan. Provisioned throughput cost math, S3 dataset upload, IAM policy. Türkiye'den erişim (Frankfurt region).
- 7
Mistral La Plateforme Fine-Tuning: Mistral-Large 2 + Multi-Locale
Mistral'in kendi cloud platform'u La Plateforme'de FT: Mistral-7B-Instruct, Mistral-Small 3 24B, Mistral-Large 2 123B. JSONL format Mistral-spesifik chat template, multilingual (EU dilleri + TR). EU data residency (GDPR compliant). Cost orta seviye.
- 8
Cohere Command Custom Model: RAG-Tuned Foundation
Cohere Command R/R+ — RAG-native baseline. Custom Model fine-tuning Cohere console üzerinden, JSONL format, citation token training native. Production deploy Cohere endpoint veya enterprise self-host.
- 9
Üçüncü Parti FT: Together AI + Fireworks + OpenPipe + Predibase + Replicate
5 önemli üçüncü-parti FT service: Together AI (Llama/Qwen/Mistral, multi-tenant LoRA), Fireworks AI (low-latency serving + FT), OpenPipe (production logging → auto FT), Predibase (enterprise + Ludwig), Replicate (community models). Karar matrisi: cost/feature/locking.
- 10
Closed-FT vs Self-Hosted FT Karar Matrisi: TCO + Latency + Data Residency + KVKK
Cookbook'un Part XIV özet kararı: closed API FT vs self-hosted open FT. 6 boyutta karşılaştırma: TCO (1 yıllık tahmini), latency (P50/P95), data residency (TR/EU/US), KVKK uyumu, model özgürlüğü (versioning, lisans, deploy), kalite. 4 use-case için tipik kararlar.
Part XV — Serving Engineering
- 1
vLLM Internals: Continuous Batching + PagedAttention + Prefix Cache
vLLM (Kwon et al. 2023) — production LLM serving'in altın standardı. Continuous batching: yeni request'ler batch'e dinamik eklenir, finished olanlar çıkarılır → GPU idle bitti. PagedAttention: KV-cache'i fixed-size block'larda yönet → fragmentation %0. Prefix cache: common system prompt'lar tekrar hesaplanmaz. RTX 4090'da Llama 3.1 8B serving (175 tok/s batch=1, 920 tok/s batch=16).
- 2
LoRA Hot-Swap Lab: Tek Base + N Adapter — Tek 4090'da 50 Müşteri Servisi
vLLM 0.3+'in killer feature'ı: tek base model + N farklı LoRA adapter, runtime'da hot-swap. Her müşteri için ayrı LoRA, hepsi aynı 24GB'da. Llama 3.1 8B base (~5 GB AWQ) + 30+ adapter (~40 MB her biri) → 50 müşteri tek 4090'da. QPS-vs-latency eğrisi.
- 3
SGLang RadixAttention: Structured Output + JSON-Mode + Multi-Branch Caching
SGLang (Zheng et al. 2024) — vLLM'in alternatif rakibi. RadixAttention: prefix cache'in Trie/Radix tree'de organize edilmiş hali → multi-branch sharing. Constrained decoding (regex, JSON schema), structured output native, agent workflows için optimize. RTX 4090'da Llama 3.1 8B SGLang serving + JSON-only response.
- 4
TGI (HuggingFace Text Generation Inference): Production HF Endpoint Internals
TGI — HuggingFace'in production inference server'ı, hf.co/inference-endpoints'in altında çalışır. Rust + Python hibrit, prometheus metrics, multiple GPU desteği. vLLM'e göre daha agresif batching + Flash-Attention 2 hard-coded. RTX 4090'da TGI docker ile Llama 3.1 8B serve.
- 5
TensorRT-LLM: NVIDIA Native Engine — INT8 SmoothQuant + FP8 + In-Flight Batching
TensorRT-LLM — NVIDIA'nın LLM-spesifik TensorRT engine'i. CUDA kernel'lar Hopper/Ada native, en hızlı inference (vLLM'den +%15-30 throughput). Engine build process, INT8 SmoothQuant, FP8 quantization, multi-LoRA. RTX 4090'da Llama 3.1 8B TRT-LLM engine build (1 saat) + inference.
- 6
llama.cpp + Ollama: GGUF Serving + Modelfile + System Prompt Versioning
llama.cpp + Ollama — CPU/Apple Silicon/edge için altın standart. GGUF format, Ollama'nın Modelfile sistemi (system prompt + tools versioning), Ollama API, OpenAI-uyumlu endpoint. RTX 4090'da Q4_K_M Llama 8B Ollama'da 95 tok/s (vLLM AWQ 175'in altında ama 'set up zero' faktörüyle production-ready).
- 7
MLX-LM Apple Silicon: M-Series Mac'te FT + Serve + Distributed MLX
Apple MLX (2023+) — Apple Silicon (M1/M2/M3) için unified memory ML framework. MLX-LM ile Llama / Qwen / Gemma FT + inference. M3 Max 128GB'da 70B inference, M2 Pro 32GB'da 8B FT. RTX 4090 alternatifi olarak Mac kullananlar için cookbook ek section.
- 8
Speculative Decoding Production: Draft + Target Pairing + Accept Rate Ölçümü
Speculative decoding (Leviathan et al. 2023, Chen et al. 2023) — küçük draft model 4-8 token'ı tahmin eder, target model bunu **doğrular**. Accept rate yüksekse 2-3x throughput. EAGLE-2 (Li et al. 2024), MEDUSA head training. RTX 4090'da Llama 3.1 8B target + Llama 3.2 1B draft: tok/s 175 → 290.
- 9
Disaggregated Serving: Prefill/Decode Ayrımı — Mooncake + DistServe
Modern LLM serving'in en yeni trend'i (2024-2026): prefill (input encoding) ve decode (token generation) farklı GPU'larda. Prefill compute-bound, decode memory-bound — ayrımı %30-50 throughput artırır. Mooncake (Kimi), DistServe (UCB) reçeteleri. RTX 4090 multi-GPU senaryosunda kavramsal.
- 10
Edge Inference: ONNX + Jetson + MediaTek NPU + Qualcomm AI Engine
Edge LLM inference 2026'da gerçek: NVIDIA Jetson Orin, MediaTek NPU (Pixel), Qualcomm AI Engine (Snapdragon 8 Gen 3+), Apple Neural Engine. ONNX format için cross-platform inference, edge-spesifik quantization (INT8 / INT4 / W4A8 mixed), latency budget < 200 ms first-token. SmolLM3 1.7B + Pixel 8 Pro deploy reçetesi.
Part XVI — Production Operations
- 1
Model Registry: HuggingFace Hub Privat Repo + MLflow + S3 Layout + Versioning
Production'da 50+ fine-tuned model versiyonu nasıl yönetilir? HuggingFace Hub privat repo + MLflow Model Registry + S3 (parça-parça artifact) hybrid. Versioning convention (semantic versioning + lineage), tags (\`production\`, \`canary\`, \`archive\`), retention policy (eski versiyon ne zaman silinir?). Cookbook'un model card şablonu (LoRA adapter + base + recipe).
- 2
A/B + Shadow Traffic: Feature Flag + Canary 1%→5%→25% + Automated Rollback
Yeni FT model'i production'a koymanın güvenli yolu: shadow traffic (eski + yeni model paralel, response karşılaştır), canary deployment (kademeli rampuplama 1%→5%→25%→100%), feature flag (LaunchDarkly / GrowthBook / Unleash), automated rollback (P95 latency veya error rate threshold geçince).
- 3
Online Eval: Judge LLM + Win-Rate Dashboard + Regression Alarms
Production'da real-time model kalitesi ölçümü: Judge LLM (GPT-4o-mini / Llama 3.3 70B) ile her N. response'u skorla, win-rate v2 vs v1 dashboard, regression alarms. Open eval kitleri: PromptFoo, DeepEval, RAGAs. Cookbook'un eval suite'i: daily snapshot + weekly aggregate + alarm if regress > 3 puan.
- 4
Drift Detection: Output Distribution Shift + Embedding-Cluster Anomaly
Modeller production'da zamanla 'drift' eder: input distribution kayar, output style değişir. Tespit: response length histogram shift, embedding distance baseline → mean cluster drift, user thumbs-down rate trend. Cookbook'un weekly drift report'u — alarm + auto-retrain trigger.
- 5
Continual FT Loop: Weekly Retraining + Replay Buffer + Catastrophic Forgetting Önleme
Production'da model statik kalmaz — yeni data, yeni feedback, drift mitigation için **weekly retraining** loop. Replay buffer (eski training set'in %30'u) ile catastrophic forgetting önleme, A/B ile yeni weekly model vs current canary, sertifika eval suite zorunlu.
- 6
Memorization & Membership Inference: Training Data Extraction Probe
FT modelleri training data'sından **PII, secret, telif metni** ezberlemiş olabilir. Membership Inference Attack (MIA) testi: training set'ten random snippet ver, model devam ettiriyor mu? Detection thresholds. KVKK + GDPR uyumu için zorunlu pre-deploy check.
- 7
Cost Observability: Token-Level Cost + FinOps Tagging + Idle GPU Detector
Production LLM TCO'sunu kontrol altına almak: per-request token cost tracking, customer-level FinOps tagging (kimin user'ı kaç token), idle GPU detector (vLLM serving'de utilization %50'nin altına düşerse alarm), cost-per-query trend, alarm thresholds.
- 8
Incident Drill: 'Model X Dün Hallucinate'liyor' — Root-Cause Matrix
Production'da en korkulan cümle: 'Model garbage döndürüyor'. Cookbook'un sistematik root-cause matrix'i: model version değişimi, base model update (HF Hub'da retrain), API provider deprecation, dataset poisoning, prompt injection, sampling temp config drift. Incident response playbook, blameless postmortem template.
Part XVII — Türkiye Use-Case Labs
- 1
E-ticaret Customer Support Bot: Trendyol/Hepsiburada-Tarzı SLA + Entity Extraction
TR e-ticaret platformuna özel customer support bot: 50K real ticket (anonimleştirilmiş) + Trendyol-tarzı SLA (P95 < 3sn), entity extraction (sipariş no, ürün, kargo, iade), intent classification (40+ intent), tool-calling (sipariş status API). Llama 3.1 8B + Qwen 2.5 7B karşılaştırma, vLLM + LoRA hot-swap deploy.
- 2
TR Code Assistant: Türkçe Yorumlu Repo + Continue.dev IDE Entegrasyonu
Türk dev ekosistemi için spesifik code assistant: TR yorumlu repo'lardan FT (camelCase awareness, TR jargon), Continue.dev VS Code/JetBrains plugin entegrasyonu, FIM completion + chat. Qwen2.5-Coder 7B + LoRA, RTX 4090'da self-host. Internal company codebase + TR yorum format.
- 3
Hukuk Soru-Cevap: TCK + TMK + Anayasa + Mevzuat — RAG + FT Hybrid
TR hukuk LLM'in en kritik özelliği: hallucination KPI < %2 hedef. Anayasa, TCK, TMK, İcra İflas Kanunu + Yargıtay kararları corpus (~5GB). Retrieval-augmented (BGE-M3 TR FT) + LLM (Qwen 2.5 14B QLoRA) hybrid. Citation token training (her cevapta madde no zorunlu). Avukat workflow'una entegre.
- 4
Tıbbi Triage TR: Semptom → Ön-Tanı + On-Prem Inference + KVKK + Audit-Log
Sağlık LLM'inin en zor kısımları: regulatory (KVKK + sağlık verisi özel kategori), liability (yanlış tanı = ölüm), audit-log zorunluluğu, on-prem zorunlu (HIPAA-equivalent). Use case: aile hekimi triage asistan — semptom listesinden olası ön-tanı + uzman yönlendirme. Mistral Small 3 24B + on-prem + LoRA.
- 5
BIST Financial Sentiment + Bilanço PDF: Multimodal FT (Qwen2.5-VL)
Türk hisse senedi pazarı (BIST) için FT: TR finans haberleri sentiment classification (KAP açıklama + Bloomberg HT + ekonomi medyası), bilanço PDF okuyup financial ratio extraction (Qwen2.5-VL doc understanding), trade signal generation. Quant trade signal güveni < %75 ise pas geç.
- 6
MEB Müfredat Tutor: Lise Matematik / Fizik PRM-Augmented Reasoning
MEB müfredat uyumlu tutor: 9-12. sınıf matematik + fizik konuları, **PRM-augmented reasoning** (step-level correctness), adaptive difficulty, student misconception detection. Qwen 2.5 7B + reasoning SFT + PRM. RTX 4090'da inference, web app frontend.
- 7
e-Devlet Vatandaş Asistanı: Intent Classification + Tool-Calling (80+ Intent)
e-Devlet kapısı entegre LLM: 80+ intent (vergi, sigorta, ehliyet, pasaport, tapu, etc.), tool-calling ile e-Devlet API'ları çağırma, kişisel veri (TC kimlik) PII handling. KVKK uyumlu logging, audit trail, vatandaş onay sistemi. Llama 3.3 8B + custom SFT, on-prem deploy.
- 8
Çağrı Merkezi Speech-to-Action: Whisper TR FT + LLM Intent + Real-Time Pipeline
Çağrı merkezi end-to-end pipeline: Whisper Large-v3-Turbo TR FT (faster-whisper streaming) → real-time transcription → LLM intent classification (Qwen 2.5 7B) → action (CRM ticket open, sipariş status, escalation). pyannote diarization (müşteri vs operatör). P95 latency < 1.5s.
- 9
Bankacılık Internal Copilot: On-Prem + KVKK Audit-Log + Prompt Injection Red-Team
Türk bankacılığı için internal copilot (müşteri temsilcisi + operasyon ekibi): on-prem (BDDK + KVKK zorunlu), audit log (her query + response 7 yıl saklanır), prompt injection red-team (attacker müşteri datasına erişmeye çalışır), Mistral Small 3 24B + air-gapped deploy.
- 10
Belediye / Kamu Doc-QA: Resmi Belge + E-İmzalı PDF Parse + FT
Belediye/kamu kurumu için doc-QA: imar planı, tapu kaydı, encümen kararı, ihale dosyası gibi resmi belgeler. E-imzalı PDF parse (PAdES + CAdES), tablo + form extraction, structured field QA. Qwen 2.5-VL doc understanding + LoRA, vatandaş başvuruları için intent route.
Part XVIII — Compliance, Governance & Red-Teaming
- 1
EU AI Act Sınıflandırma: General-Purpose vs High-Risk + Annex IV Teknik Doküman
EU AI Act (2024 yürürlükte): LLM'leri 4 kategoriye ayırır — yasaklı, high-risk, sınırlı risk, minimal. FT modelinin hangi kategoriye girdiği = compliance bütçesini belirler. High-risk olursa: Annex IV (technical documentation), CE marking, conformity assessment. Türkiye'den AB pazarına satarsan zorunlu.
- 2
KVKK Uyumu: Anonimleştirme + Silme Hakkı + Machine Unlearning (SISA + Gradient Ascent)
KVKK Madde 7: 'Silme hakkı'. Vatandaş 'beni datasetten sil' derse: re-train pahalı (milyon dolarlar). **Machine Unlearning** alternatifi: SISA (Sharded, Isolated, Sliced, Aggregated) approach veya gradient ascent yöntemi. KVKK Kurul kararları, uygulamalı örnek (TR-bankacılık vatandaş silme talebi).
- 3
Model Lisans Labirenti: Llama vs Gemma vs Qwen vs Mistral — 'Derivative Work' Tartışması
FT model'i yayınlarken hangi lisansla? Base model'in lisansı **derivative work**'e nasıl yansır? Llama Community License v3 (>700M MAU kısıt), Gemma ToS (responsible use), Qwen2 Apache 2.0 (en esnek), Mistral Research vs Apache (model-spesifik), OpenAI ToS (output kısıt). Cookbook karar matrisi.
- 4
Veri Lisans Zinciri: CC-BY-SA Viral Etkisi + Common Crawl ToS + GitHub Permissive Filter
Training dataset'inin lisansı FT model'e nasıl yansır? CC-BY-SA viral (derivative aynı lisansta olmalı), Common Crawl ToS (research only), GitHub permissive filter (MIT/Apache/BSD only — GPL hayır). Wikipedia (CC-BY-SA) ile train ederseniz model CC-BY-SA olabilir mi? Hukuki gri alan.
- 5
Model Card + Datasheet: HuggingFace Template + Google Datasheet + Bias Section
Modern open-source LLM yayını için zorunlu: **Model Card** (HF) — model özellikleri, training process, evaluation, intended use, limitations, bias. **Datasheet for Datasets** (Gebru 2021) — training data details. Bias section ZORUNLU (EU AI Act gereksinimi). Cookbook'un TR template.
- 6
Bias Eval TR: BBQ-TR — Cinsiyet / Etnik / Mezhep / Yaş / SES Probe + Mitigation
BBQ (Bias Benchmark for QA, Parrish 2022) TR adaptation: cinsiyet, etnik (Türk/Kürt/Arap/Ermeni), mezhep (Sünni/Alevi), yaş, sosyoekonomik durum, fiziksel görünüm 9 kategoride bias probe. 1200 ambiguous question pair. Cookbook'un mitigation reçetesi: balanced SFT data + DPO bias-rejection examples.
- 7
Red-Teaming Lab: GCG + PAIR + AutoDAN + Prompt Injection Robustness
Production deploy öncesi zorunlu: red-team probe. GCG (Greedy Coordinate Gradient — adversarial suffix attack), PAIR (Prompt Automatic Iterative Refinement — LLM attacks LLM), AutoDAN (jailbreak auto-generation), prompt injection (RAG context'inde malicious instruction). Cookbook'un open red-team corpus + scoring metodu.
- 8
Watermarking & Provenance: C2PA + SynthID + Model Fingerprinting
AI-generated content'i tespit edilebilir kılma: SynthID (Google, statistical watermark in token distribution), C2PA (Content Authenticity Initiative — metadata-based), model fingerprinting (training-time backdoor as ownership proof). EU AI Act + emerging regulations için zorunlu.
- 9
DP-SGD (Differential Privacy SGD) + Federated FT: Opacus + Flower
Hassas data ile FT yaparken privacy guarantee'ler: DP-SGD (Opacus library) — gradient'lara controlled noise ekle, (ε, δ)-differential privacy garanti. Federated FT (Flower) — data hiç sunucuya gelmesin, sadece gradient. KVKK + sağlık + finans için ideal. Privacy budget vs accuracy trade-off.
- 10
ROOTS-Style Data Transparency: Reproducibility + Open Science Standartları
ROOTS (BigScience BLOOM) — training corpus'un tam transparency'sini koruma standart. Cookbook'un FT modelleri için: dataset card (source, license, processing), data composition tablosu, exclusion criteria. Open science için bu standartı uygulayanlar long-term trustworthy.
Capstone — Build Your Own LLM
- 1
Capstone Brief: Kendi Niş Domain'inde Uçtan Uca FT Projesi — 12 Adımlı Yol Haritası
Cookbook'un final projesi: 4-6 hafta sürecek uçtan uca FT projesi. Niş domain seç (sağlık / hukuk / e-ticaret / kamu / eğitim / finans / edebiyat / spor / oyun / tarih / vs.), veri topla, tokenizer extend et, continual PT yap, SFT + DPO, quantize, vLLM ile deploy, eval, model card, public release. Cookbook'un tüm 19 Part'ını uygulamalı entegre eder.
- 2
Final Run Telemetry Raporu: MFU + Throughput + Loss + Cost Decomposition
Capstone'un final teslim çıktısı: detaylı telemetry raporu. MFU%, tokens/s, peak GPU memory, loss curve overlay (SFT + DPO), eval tablo (TR-MMLU + custom), maliyet decomposition (cloud saat × $ + electricity ₺ + storage), git_sha + data_sha256 + wandb_run_id triple. Cookbook standardı: sertifika için bu rapor zorunlu.
- 3
Peer Review Rubric: Reproducibility + Eval Rigour + Engineering + TR-Domain Fit
Cookbook'un peer review sistemi: capstone projeler topluluk üyeleri tarafından değerlendirilir. 4 kategori × 25 puan: Reproducibility (lineage triple, env pinning, repo açık), Eval rigour (TR-MMLU + domain bench + bias eval), Engineering quality (MFU >%35, kod organizasyonu), TR-domain fit (gerçek kullanım potansiyeli). Toplam 100 üzerinden 70+ → sertifika.
- 4
Public Release Paketi: HF Hub + Model Card + Dataset Card + Eval Results + License Attestation
Capstone modelini dünyaya açma: HuggingFace Hub'a public push, full model card, dataset card, eval_results.csv, Modelfile (Ollama uyumu), license attestation (base model + dataset chain), badge'ler ('Apache 2.0', 'BBQ-TR tested', 'KVKK compliant'). Twitter/LinkedIn launch template.
- 5
Sertifika Yolu: 'FT Engineer Level III' — Cookbook'un Resmi Tanınırlığı
Cookbook'un kapanış sertifikası: tüm 19 Part'tan en az %85 ders teslim + capstone peer-review skoru ≥ 70/100 → **'FT Engineer Level III'** sertifika alırsın. Sertifika LinkedIn'e eklenir, sukruyusufkaya.com/certificates'a kaydedilir. Türkiye'deki tek bağımsız FT mühendisi sertifikası.