Production'da GPTQ mi AWQ mi seçmeliyim? Aralarındaki gerçek fark nedir?

2026 itibarıyla genel öneri AWQ — daha hızlı calibration (10-30 dk vs GPTQ 1-3 saat), daha basit (Hessian compute yok), benzer veya daha iyi kalite. GPTQ'nun avantajı: act-order desc_act ile reasoning-heavy task'larda %0.5-1 daha iyi olabilir; ayrıca GPTQ-INT3 ve GPTQ-INT2 var, AWQ ana akımda sadece INT4. Pratik kural: hız + kolaylık → AWQ; reasoning model + maksimum kalite → GPTQ (desc_act=true). Production'da iki algoritmanın da aynı modeli quantize edip benchmark karşılaştırması yapmak en güvenli yol. Modül 4 ve 5 her ikisini somut karşılaştırma tablolarıyla işler.

Llama 3.3 70B'i RTX 4090 (24GB)'da nasıl serve edebilirim?

Üç yol: (1) AWQ INT4 → 35GB, hâlâ sığmaz; çift RTX 4090 (48GB total) gerekir. (2) AQLM 2-bit → 17.5GB, sığar, ama AQLM calibration 24-48 saat. (3) GGUF Q2_K_M (~25GB) llama.cpp + Apple Silicon M3 Max (36GB unified RAM) ideal alternative. Pratik öneri: tek RTX 4090'da Llama 3.3 8B (16GB AWQ) veya 32B (16GB AQLM); 70B için çift 4090 (AWQ) veya tek H100 (AWQ) veya Apple Silicon M3 Max (GGUF Q4). Modül 9 ve 12 capstone'da bu senaryolar pratik gösterilir.

FP8 ve FP4 ne zaman INT8 / INT4'ten daha iyi? Hardware şart mı?

Native hardware desteği şart. FP8: Hopper H100/H200 ve sonrası (Tensor Core'lar native). FP4 (NVFP4/MXFP4): Blackwell B200/GB200 (2024 sonu+). Ampere A100'de FP8 software emulation ile yavaş; FP4 ise hardware'siz pratik değil. Kalite tarafında: FP8 (E4M3) INT8'den marjinal daha iyi (~0.2-0.5% MMLU); FP4 (NVFP4) INT4'ten daha iyi (~0.5-1% MMLU). Hopper / Blackwell GPU'nuz varsa FP8/FP4 default tercih olmalı. Hardware native + throughput 2-3x daha hızlı. Modül 8 detaylı işler.

Quantization kalite kaybı ne kadar? %0.5-1 MMLU loss kabul edilebilir mi?

Senaryoya bağlı. Genel chat / customer service / RAG: %1-2 MMLU loss tolerable; cost / latency kazanımı çoğu zaman buna değer. Reasoning model (o3, R1, Claude Extended Thinking): math/code task'larda %1 kayıp bile yüksek olabilir; ekstra dikkat. Code generation (Copilot tarzı): HumanEval'da %1 kayıp = sayfalarca rapor farkı; sıkı doğrulama gerekir. Quality threshold belirleme: production benchmark + A/B test ile gerçek user impact ölçümü kritik. Modül 11 ve 12 quality threshold belirleme + accuracy validation framework detaylı işler.

Reasoning model serving cost'unu KV cache quantization ile gerçekten %70 düşürebilir miyim?

Evet — reasoning model'in 32K-128K thinking trace'i için KV cache memory dominanslığı çok yüksek. 70B model + 32K context = 32GB KV cache (FP16); vLLM FP8 KV cache → 16GB (2x tasarruf); KIVI 2-bit → 4GB (8x tasarruf). Bu, aynı GPU'da 4-8x daha fazla concurrent request serve etmeyi mümkün kılar → throughput 4-8x artar → $/token cost 4-8x düşer. Anthropic ve DeepSeek production deneyiminde reasoning model serving %50-70 cost reduction bu yaklaşımla mümkün. Modül 10 KIVI + KVQuant + vLLM FP8 KV cache implementation detaylı işler.

AQLM 2-bit gerçekten GPTQ 4-bit'ten daha iyi mi?

Evet — AQLM (Egiazarian 2024) codebook-based vector quantization sayesinde 2-bit'te GPTQ INT4'ten daha iyi MMLU + HumanEval scoresı yakalıyor (Llama 3 70B üzerinde +0.5-1.5 puan). Trade-off: AQLM calibration 24-48 saat (GPTQ 1-3 saat); compute maliyeti yüksek. Pratik: araştırma + extreme memory constraint senaryosu → AQLM; standart production + hızlı iteration → AWQ INT4 veya GPTQ INT4. Modül 9 AQLM + QuIP# + BitNet ailesinin Pareto frontier'ını sunar.

BitNet b1.58 (1.58-bit pre-training) gerçek mi yoksa research hype mı?

Real — Microsoft Research 2024 makalesi {-1, 0, 1} ternary native pre-training ile LLaMA 70B'e yakın kalite + 10x daha düşük inference cost gösterdi. 2025-2026'da BitNet b1.58 + extensions (T-MAC, BitMoE) production'a doğru ilerliyor. Ana zorluk: from-scratch pre-training compute (klasik post-training quantization değil); önemli yatırım gerekiyor. Pratik kullanım: research labs + büyük ölçek pre-training pipeline'ları; orta-ölçek production ekipler için henüz erken. PTQ vs native low-bit pre-training, 2026 paradigma kayması — Modül 9.2 detaylı işler.

QAT (Quantization-Aware Training) ne zaman PTQ'dan daha iyi?

İki senaryoda QAT belirgin üstün: (1) Extreme low-bit (INT3, INT2): PTQ %5-10 MMLU kaybı, QAT %1-2'ye iner. (2) Severe quality regression (PTQ ile %3+ MMLU kaybı): QAT bunun çoğunu recover edebilir. Gemma 3 QAT (Google 2025) INT4'te sadece %1.5 MMLU loss çıkardı. Trade-off: QAT compute maliyeti (full FT'nin 1.5-2x), training time + data ihtiyacı. Pratik: PTQ ile başla; quality threshold aşılmazsa, hibrit PTQ + QAT yaklaşımıyla telafi et. Modül 11 detaylı işler.

Apple Silicon (M3 Max, M4 Max) production LLM serving için yeterli mi?

Belirli senaryolarda evet, belirlilerde hayır. Yeterli olduğu: tek user / az concurrent (5-20 req/sec), 7B-70B GGUF Q4_K_M, latency 100-300ms tolerable, batch size 1-4. Yetersiz olduğu: yüksek throughput multi-tenant SaaS (1000+ concurrent), reasoning model long-trace (32K+ context KV cache memory yetmez), production scaling (multi-GPU cluster gerekli). Pratik: prototype + small business + on-device privacy-aware deployment → Apple Silicon ideal; enterprise scale → H100/B200 cluster. M4 Max 128GB RAM ile 70B GGUF Q6_K çalıştırabilir. Modül 7.3 detaylı işler.

Eğitim sonunda elimde hangi somut artefaktlar olacak?

Capstone projesinde şu artefaktlar üretilir: (1) Kendi production senaryonuza özel quantization pipeline (Python codebase + YAML config); (2) Quantized model checkpoint(s) (GPTQ, AWQ, GGUF veya AQLM); (3) vLLM / TensorRT-LLM / llama.cpp serving template; (4) KV cache quantization config (reasoning model için); (5) Accuracy validation raporu (MMLU + HumanEval + domain benchmark regresyon); (6) Cost analizi (saatlik GPU + $/M token + alternatif hardware karşılaştırması); (7) Quality threshold + A/B test framework template; (8) 90 günlük production deployment roadmap.

RLHF + Reasoning + Mech Interp + CPT + Quantization beşli set ile ne yapabilirim?

Bu beş eğitim Türkiye'de production-grade LLM mühendisliğinin tüm cephanesini tamamlar: CPT ile model'in bilgi tabanını adapte edebilir (Türkçe veya domain), RLHF/DPO/GRPO ile davranışı hizalayabilir, Reasoning Models ile karmaşık problem çözdürebilir, Mech Interp ile iç davranışı denetleyebilir (safety + audit), Quantization ile production cost'unu 3-10x düşürebilirsiniz. Birlikte: kurumsal AI ekibi tam bağımsız production-grade LLM ürünü inşa edebilir — base model seçimi → CPT → SFT/DPO/GRPO → quantization → vLLM serving → mech interp ile audit + steering. 2026'da Türkiye'de tam bu yetkinliği veren başka kapsama yoktur.

Eğitim kurumsal ekibimize özel uyarlanabilir mi?

Evet. Standart 3 günlük programın yanında, kurumsal müşteriler için özelleştirilmiş kapalı sınıf versiyonlar düzenliyoruz. Ekibinizin mevcut LLM stack'i (Llama / Qwen / DeepSeek / Claude API / kendi CPT model'i), hardware altyapısı (H100/H200/B200 cluster, AMD MI325X, Apple Silicon, Intel Xeon CPU), serving stack (vLLM, TensorRT-LLM, llama.cpp, SGLang), reasoning model kullanımı, target latency + throughput SLA, ve cost optimization hedefi dikkate alınarak modül ağırlıkları + capstone senaryoları özelleştirilir.

Bu eğitim hakkında

LLM'leri 4-bit / 8-bit / FP8 / FP4'e indirme — model boyutunu 4-16x küçültme + inference latency'yi 2-4x azaltma — disiplinini uçtan uca işleyen 3 günlük ileri seviye Türkçe eğitim. GPTQ, AWQ, SmoothQuant, EXL2, GGUF/IQ-quants, NF4 BitsAndBytes, FP8/FP4 (Hopper/Blackwell), AQLM extreme 2-bit, KIVI/KVQuant KV cache quantization, QAT ve vLLM/TensorRT-LLM/llama.cpp/SGLang production serving dahil.

Bu eğitim şu kitleler için tasarlanmıştır: Production LLM inference cost'unu 3-10x düşürmek isteyen ML Engineer ve Inference Engineer'lar Reasoning model (o3, R1, Claude Extended Thinking) serving cost'unu KV cache quantization ile optimize etmek isteyen senior backend developer'lar Open-source LLM'i (Llama 3.3, Qwen3, DeepSeek V3, Gemma 3) tek H100 veya RTX 4090'a sığdırmak isteyen ML Platform engineer'lar Apple Silicon / CPU / Edge / Mobile deployment yapması gereken AI Engineer'lar Hopper FP8 ve Blackwell FP4 native hardware optimizasyonu disiplinini öğrenmek isteyen MLOps mühendisleri Quantization research'ünde aktif (AQLM, QuIP#, BitNet, KIVI takip eden) AI Researcher'lar

Bu eğitim neden önemli: Türkiye'de LLM quantization disiplinini matematik + algoritma + production üçlüsüyle uçtan uca işleyen tek ileri seviye program. GPTQ, AWQ, SmoothQuant, EXL2, GGUF, AQLM, BitNet, QuIP#, HQQ, KIVI'yi karşılaştırmalı + uygulamalı kapsıyor. Hopper FP8 + Blackwell FP4 native hardware avantajını 2026 datacenter standartlarına bağlıyor. Reasoning model long-trace serving için KV cache quantization disiplinini uçtan uca öğretiyor. QAT ile PTQ'nun yetmediği extreme low-bit senaryolarda kalite telafi reçetesi sunuyor. vLLM + TensorRT-LLM + llama.cpp + SGLang serving stack'lerinde production deployment ustalaştırıyor. Capstone projesi ile katılımcıya kendi hardware target'ında uygulanabilir quantization pipeline + cost analizi üretimi sağlıyor. RLHF + Reasoning Models + Mech Interp + CPT + Quantization beşlik frontier set ile production LLM mühendisliğinin tüm cephanesini tamamlıyor.

Eğitim sonunda kazanacağınız çıktılar: FP16 → INT8 → INT4 → FP8 → FP4 → AQLM 2-bit spektrumunda doğru bit-width seçebilirsiniz. GPTQ Hessian approximation ve AWQ scaling factor mekanizmalarını implement edebilirsiniz. SmoothQuant outlier migration ile W8A8 production serving kurabilirsiniz. GGUF + llama.cpp ile Apple Silicon / Edge / CPU deployment yapabilirsiniz. Hopper FP8 ve Blackwell FP4 native Tensor Core'larını ustaca kullanabilirsiniz. AQLM ile 70B model'i RTX 4090 (24GB)'da serve edebilirsiniz. KIVI 2-bit KV cache ile reasoning model serving cost'unu %50-70 düşürebilirsiniz. QAT ile PTQ'nun yetmediği extreme low-bit senaryolarda kalite telafisi yapabilirsiniz. vLLM, TensorRT-LLM, llama.cpp, SGLang quantized serving stack'lerini ustaca yönetebilirsiniz. Production cost'u 3-10x düşüren + latency'i 2-4x azaltan quantization pipeline'ı tasarlayabilirsiniz.

Ön koşullar ve önerilen birikim: Aktif Python deneyimi (orta-üst seviye), PyTorch ve HuggingFace Transformers temel kullanımı LLM inference deneyimi (vLLM, llama.cpp, TGI veya benzeri ile en az kavramsal aşinalık) Linear algebra, sayısal yöntemler (matris operasyonu, Cholesky) temelleri Transformer mimarisi (attention, MLP, residual stream) temel bilgisi GPU erişimi (RunPod, Lambda Labs, Modal) — capstone için H100 (80GB) önerilir; RTX 4090 / Apple Silicon ile de katılım mümkün Eğitim öncesinde Hugging Face hesabı + bir LLM provider (OpenAI/Anthropic/Google) API key

Türkiye'de LLM quantization disiplinini matematik + algoritma + production stack üçlüsüyle uçtan uca işleyen tek ileri seviye program
GPTQ (Frantar 2022) Hessian approximation + AWQ (Lin 2023) scaling factor matematik düzeyinde inşa
SmoothQuant + ZeroQuant + LLM.int8 outlier handling ile W8A8 production serving
GGUF + llama.cpp K-quants + IQ-quants ile edge / CPU / Apple Silicon deployment
Hopper FP8 (E4M3/E5M2) + Blackwell NVFP4/MXFP4 native hardware avantajı
AQLM + QuIP# + BitNet b1.58 + HQQ extreme low-bit (1-2 bit) 2024-2026 frontier
KIVI + KVQuant ile reasoning model long-trace serving KV cache quantization
QAT pipeline + Gemma 3 QAT (Google 2025) reçetesi + PTQ + QAT hibrit yaklaşım

Anahtar Çıkarımlar

FP16 → INT8 → INT4 → FP8 → FP4 → AQLM 2-bit spektrumunda doğru bit-width seçebilirsiniz.
GPTQ Hessian approximation ve AWQ scaling factor mekanizmalarını implement edebilirsiniz.
SmoothQuant outlier migration ile W8A8 production serving kurabilirsiniz.
GGUF + llama.cpp ile Apple Silicon / Edge / CPU deployment yapabilirsiniz.
Hopper FP8 ve Blackwell FP4 native Tensor Core'larını ustaca kullanabilirsiniz.
AQLM ile 70B model'i RTX 4090 (24GB)'da serve edebilirsiniz.
KIVI 2-bit KV cache ile reasoning model serving cost'unu %50-70 düşürebilirsiniz.
QAT ile PTQ'nun yetmediği extreme low-bit senaryolarda kalite telafisi yapabilirsiniz.
vLLM, TensorRT-LLM, llama.cpp, SGLang quantized serving stack'lerini ustaca yönetebilirsiniz.
Production cost'u 3-10x düşüren + latency'i 2-4x azaltan quantization pipeline'ı tasarlayabilirsiniz.

İleri Seviye3 Gün

İleri Seviye LLM Quantization Mühendisliği Eğitimi (GPTQ + AWQ + EXL2 + GGUF + FP8 + FP4)

Hemen Kaydol

Eğitim Hakkında

Bu eğitim, modern LLM inference'unun ekonomik temeli olan quantization disiplinini matematik + algoritma + production stack üçlüsüyle uçtan uca işlemek üzere tasarlanmıştır. 2026 itibarıyla bir 70B parametre LLM'i FP16'da serve etmek tek H100'e bile sığmaz (140GB > 80GB); buna karşılık 4-bit quantization ile aynı model tek RTX 4090'da (24GB) çalışabilir ve maliyeti 10x düşer. Bu dramatik fark, quantization'ı production AI mühendisliğinin önceliklerinden biri haline getirmiştir. Türkiye'de bu disiplini Frantar GPTQ türevinden Lin AWQ scaling factor'ünün matematiksel inşasına, SmoothQuant outlier migration formülasyonundan AQLM additive codebook'una, Hopper FP8 Tensor Core'larından Blackwell B200 NVFP4 / MXFP4'üne, KIVI 2-bit KV cache'inden reasoning model long-trace serving'e kadar uçtan uca işleyen bir eğitim neredeyse yoktur; mevcut içerikler ya yüzeysel araç tutoriallerinde takılı kalıyor ya da akademik makale özetlerinde donuyor. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade LLM quantization referans eğitimi olarak doldurmak üzere tasarlandı.

Programın stratejik omurgasını, quantization spektrumunun (FP32 → BF16/FP16 → FP8 → INT8 → NF4/INT4 → FP4 → AQLM 1-2 bit) cost-quality-throughput trade-off'unu netleştiren ilk modül oluşturur. Bir 70B model'in memory footprint'i FP16'da 140GB, INT8'de 70GB, INT4/NF4'te 35GB, NVFP4'te 17.5GB, AQLM 2-bit'te 4GB; bu fark sadece bellek değil, throughput'ta da 2-8x kazanım sağlar. Hopper H100/H200'ün FP8 (E4M3 + E5M2) native Tensor Core'ları ve Blackwell B200/GB200'ün NVFP4 + MXFP4 Transformer Engine v2 desteği 2024-2026 endüstri dönüşümünün hardware temelini oluşturur; AMD MI325X/MI355X FP8/FP4, Intel Gaudi 3, Google TPU v6/v7 (Trillium) de bu yarışa katıldı. Karar çerçevesi: production cost optimization için $0.30/M output token vs $3/M karşılaştırması, quality regression budget (%0.5 MMLU loss tolerable mı?), ve hangi bit-width hangi senaryoda doğru seçim sorularına kanıt-tabanlı yanıt verilir.

İkinci modül quantization'un matematik temellerini ele alır. Linear quantization formülü q = round((x - z) / s), dequantization x' = s × q + z; symmetric (zero-point = 0) vs asymmetric (zero-point ≠ 0) trade-off'u; min-max calibration vs percentile clipping (P99.9); per-tensor (en kaba) → per-channel → per-group (g=128, en ince) granularity seçim matrisi; outlier handling (SmoothQuant migration, MX format mantığı). Format tarafında NF4 (NormalFloat 4-bit, Dettmers 2023 — information-theoretic optimal 4-bit dağılım, weight'lerin Gaussian dağıldığı varsayımı), FP8 E4M3 (forward pass için, daha hassas) vs E5M2 (backward gradient için, daha geniş range), MXFP4 (OCP Microscaling 4-bit) ve NVFP4 (Blackwell native, NVIDIA OCP varyantı) format ayrımları netleştirilir. Bu temel olmadan modern quantization algoritmaları (GPTQ, AWQ, SmoothQuant) anlaşılamaz.

Üçüncü modül production'da hâkim yaklaşım olan PTQ (post-training quantization) disiplinini ele alır. Calibration dataset seçimi (genelde 128-512 örnek yeterli — C4, Wikitext, Pile, FineWeb sample; Türkçe domain için Türkçe FineWeb subset), forward pass tracking, activation statistics toplama, outlier detection — Dettmers 2022 LLM.int8 makalesinde 6.7B+ modellerde keşfedilen emergent magnitude outlier kanal olgusu detaylı çözümlenir. Bu outlier kanallar (toplam channel'ların %0.1-1'i) tüm model kalitesinin dominant bölümünü taşır; mixed precision karar matrisi (outlier kanalları FP16'da koruma, geri kalan INT8) bu disiplinin temelidir. Naive round-to-nearest quantization 4-bit'te %5-15 MMLU kaybı verir; modern GPTQ/AWQ ile %0.3-1 kayba düşer — bu fark üzerinde durulur. Tool stack: AutoGPTQ, AutoAWQ, llama.cpp, Hugging Face Optimum, NVIDIA Model Optimizer.

Dördüncü modül modern LLM PTQ'sunun ilk yaygın algoritması GPTQ'yu (Frantar 2022, ICLR 2023) matematik düzeyinde inşa eder. Optimal Brain Quantization (Hassibi 1993) tarihçesi, Hessian matrisi approximation (H ≈ 2 X^T X), layer-by-layer one-shot quantization, error compensation (her quantize edilen weight'in hatasının kalan weight'lere distribute edilmesi), Cholesky decomposition ile inverse Hessian computation, block-wise quantization ve group size (g=128, g=64), act-order (desc_act) parametresinin etkisi — her aşama matematiksel olarak türetilir. Production tarafında AutoGPTQ + GPTQModel ile Llama 3.3 70B, Qwen3 32B, DeepSeek V3 671B (MoE) modellerinin 4-bit GPTQ pipeline'ı hands-on yapılır; ExLlamaV2 kernel ile GPTQ inference hızı 2-3x boost; vLLM + Marlin kernel + GPTQ serving entegrasyonu detaylı işlenir.

Beşinci modül MIT Han Lab'in Lin 2023 (NeurIPS 2023) AWQ algoritmasını detaylı çözümler. AWQ'nun anahtar içgörüsü: %1 salient weight tüm modelin kalitesinin dominant bölümünü taşır ve activation magnitude'a göre belirlenir. Per-channel scaling factor ile salient kanal'lar büyütülür → quantize edilir → küçültülür; bu mekanizma quantization error'ü salient kanallar üzerinden minimize eder. Optimal scale α değeri grid search ile belirlenir (128-256 örnek calibration dataset yeterli). GPTQ ile karşılaştırma: AWQ daha basit (Hessian compute yok), daha hızlı (10-30 dakikada Llama 3.3 70B), benzer veya daha iyi kalite (özellikle reasoning ve instruction following'de). Production: AutoAWQ + vLLM + Marlin + TensorRT-LLM stack'iyle Llama 3.3, Qwen3, DeepSeek V3 4-bit AWQ pipeline'ı hands-on yapılır.

Altıncı modül sadece weight değil activation'ları da INT8'e indiren W8A8 disiplinini ele alır. SmoothQuant (Xiao 2022) — Y = (X · diag(s)^-1) · (diag(s) · W) eşitliğiyle outlier'ı activation'dan weight'e migrate ederek activation quantization'ı kolaylaştırma; α parametresi (0.5-0.85) ile migration strength tuning. ZeroQuant (Yao 2022) — token-wise dynamic quantization. LLM.int8 — 8-bit + outlier handling hibrit yaklaşım. W8A8 serving FP16'ya kıyasla 2-4x throughput artışı sağlar (özellikle batch size 1 değil de yüksek concurrency'de kritik). Production: vLLM + LLM Compressor (SmoothQuant) ile W8A8 serving, TensorRT-LLM INT8 serving (H100 Tensor Core'ları), W4A8 mixed precision (weight 4-bit + activation 8-bit hibrit) detaylı işlenir.

Yedinci modül llama.cpp ekosisteminin GGUF format'ı ve K-quants + IQ-quants ailesini ele alır — özellikle Apple Silicon ve CPU deployment için kritik. Georgi Gerganov 2023'te llama.cpp'yi açtığında 70K+ GitHub star'a ulaşan ekosistem 2026'da edge LLM serving'in de facto standardı. GGUF format yapısı (header + metadata + tensor data), K-quants ailesi (Q4_K_M en popüler quality/size dengesi, Q5_K_M kalite öncelikli, Q6_K, Q8_0 max kalite), mixed precision super-block + sub-block yapısı; IQ-quants extreme low-bit (IQ1_S 1.6-bit, IQ2_XXS, IQ3_S — codebook + importance matrix tabanlı); imatrix ile akıllı bit allocation. 70B model'i 24GB VRAM (RTX 4090) veya 36GB RAM'e (Apple Silicon M3 Max) sığdırma reçetesi pratik gösterilir. Mobile (LiteRT, MediaPipe) GGUF deployment, AMD Ryzen AI 9 NPU, Intel Xeon AMX optimization da işlenir.

Sekizinci modül modern GPU mimarilerinin native düşük-precision floating point desteğini detaylı işler. Hopper H100/H200 FP8 (E4M3 forward, E5M2 backward) native Tensor Core'ları; Blackwell B200/GB200 NVFP4 (block scale + sub-block scale) + MXFP4 (OCP Microscaling) Transformer Engine v2 — NVIDIA'nın 2026 datacenter standartlarını oluşturuyor. DeepSeek V3'ün 14.8 trilyon token üzerinde FP8 training reçetesi (scale factor management, loss scaling, BF16'ya kıyasla %30-40 cost saving) çözümlenir. Blackwell B200/GB200'de FP4 inference 3-5x throughput artışı; TensorRT Model Optimizer ile FP4 model export pipeline'ı; Hugging Face Optimum + NVIDIA TransformerEngine integration pratik gösterilir. AMD MI325X/MI355X FP8/FP4, Intel Gaudi 3, Google TPU v6/v7 quantization karşılaştırması yapılır.

Dokuzuncu modül 2024-2026'nın frontier extreme quantization disiplinine ayrılmıştır. AQLM (Egiazarian 2024 — Additive Quantization for Language Models, codebook + vector quantization tabanlı 2-bit; AQLM 2-bit accuracy GPTQ 4-bit'i geçer); QuIP# (Tseng 2024 — Quantization with Incoherence Processing, E8 lattice + incoherence rotation); BitNet b1.58 (Microsoft 2024 — {-1, 0, 1} ternary native pre-training, post-training değil); HQQ (Badri 2024 — Half-Quadratic Quantization, kalibration'sız fast PTQ alternatifi). 70B model'i 13GB'a indirerek RTX 4090 (24GB)'da serve etme reçetesi pratik gösterilir. PTQ vs native low-bit pre-training (BitNet yaklaşımı) 2026 paradigma kayması olarak işlenir.

Onuncu modül modern reasoning model'lerin (o3/o4, DeepSeek R1, Claude Extended Thinking, Qwen3) uzun thinking trace'leri için kritik bir konuya — KV cache quantization'a — odaklanır. KV cache size formülü 2 × layer × heads × dim × ctx × dtype; 70B model + 32K context = 32GB KV cache (FP16'da). Reasoning model'in 16K-128K thinking trace'i bu memory'i patlatır. vLLM FP8 KV cache (2x memory tasarruf + minimum kalite kaybı), TensorRT-LLM FP8 KV cache serving, KIVI (Liu 2024 — 2-bit KV cache + per-channel/per-token scaling), KVQuant (Hooper 2024 — outlier-aware non-uniform quantization), CacheGen, prefix cache + KV quantization birleşimi (reasoning trace yeniden kullanımı) detaylı işlenir. Bu disiplin reasoning model serving cost'unu %50-70 düşürebilir.

On birinci modül PTQ'nun yetmediği senaryolarda (extreme low-bit, severe quality regression) devreye giren QAT (Quantization-Aware Training) disiplinini ele alır. Fake quantization (forward'ta quantize-dequantize), STE (Straight-Through Estimator) backward gradient, learnable scale + zero-point (LSQ, Esser 2020), QLoRA-aware fine-tuning (4-bit base + LoRA + QAT), Gemma 3 QAT (Google 2025) production reçetesi — INT4 modeli BF16 modele yakın kalite ile (1.5% MMLU loss) çıkardı. Mixed PTQ + QAT hibrit reçetesi (PTQ ile başla, kaybı QAT ile telafi et) pratik gösterilir. Hugging Face Optimum + NVIDIA Model Optimizer QAT pipeline'ı end-to-end işlenir.

Capstone modülünde her katılımcı, kendi production senaryosuna özel uçtan uca bir quantization pipeline'ı tasarlar: model seçimi (Llama 3.3 70B, Qwen3 32B, DeepSeek V3, Gemma 3, Mistral, kendi CPT model'i), hardware target (RTX 4090 24GB, H100 80GB, B200 192GB, Apple Silicon, AMD MI325X, Intel Xeon CPU), bit-width strategy (4-bit weight + 8-bit activation + FP8 KV cache; veya AQLM 2-bit + FP8 KV; veya GGUF Q4_K_M + Apple Silicon), algorithm seçimi (GPTQ vs AWQ vs SmoothQuant vs AQLM kanıt-tabanlı), serving stack (vLLM, TensorRT-LLM, llama.cpp, SGLang), accuracy validation framework (MMLU + HumanEval + Türkçe MMLU + domain benchmark regresyon), cost analizi (saatlik GPU maliyeti + token throughput + $/M token), 90 günlük production deployment roadmap. Eğitim sonunda katılımcılar; quantization spektrumunu (FP16 → INT8 → INT4 → FP8 → FP4 → AQLM 2-bit) compute ekonomisi açısından çözebilecek; GPTQ Hessian approximation ve AWQ scaling factor mekanizmalarını implement edebilecek; SmoothQuant outlier migration + KIVI KV cache 2-bit gibi modern teknikleri uygulayabilecek; Hopper FP8 + Blackwell FP4 native hardware avantajını kullanabilecek; GGUF + llama.cpp ile edge / CPU / Apple Silicon deployment yapabilecek; AQLM + QuIP# + BitNet gibi extreme low-bit yaklaşımları değerlendirebilecek; QAT ile PTQ'nun yetmediği senaryolarda kayıp telafi edebilecek; ve vLLM / TensorRT-LLM / llama.cpp / SGLang stack'lerinde quantized production serving yapabilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.

Eğitim Metodolojisi

Türkiye'de LLM quantization disiplinini matematik + algoritma + production stack üçlüsüyle uçtan uca işleyen tek ileri seviye program

GPTQ (Frantar 2022) Hessian approximation + AWQ (Lin 2023) scaling factor matematik düzeyinde inşa

SmoothQuant + ZeroQuant + LLM.int8 outlier handling ile W8A8 production serving

GGUF + llama.cpp K-quants + IQ-quants ile edge / CPU / Apple Silicon deployment

Hopper FP8 (E4M3/E5M2) + Blackwell NVFP4/MXFP4 native hardware avantajı

AQLM + QuIP# + BitNet b1.58 + HQQ extreme low-bit (1-2 bit) 2024-2026 frontier

KIVI + KVQuant ile reasoning model long-trace serving KV cache quantization

QAT pipeline + Gemma 3 QAT (Google 2025) reçetesi + PTQ + QAT hibrit yaklaşım

Kimler İçindir?

Production LLM inference cost'unu 3-10x düşürmek isteyen ML Engineer ve Inference Engineer'lar

Reasoning model (o3, R1, Claude Extended Thinking) serving cost'unu KV cache quantization ile optimize etmek isteyen senior backend developer'lar

Open-source LLM'i (Llama 3.3, Qwen3, DeepSeek V3, Gemma 3) tek H100 veya RTX 4090'a sığdırmak isteyen ML Platform engineer'lar

Apple Silicon / CPU / Edge / Mobile deployment yapması gereken AI Engineer'lar

Hopper FP8 ve Blackwell FP4 native hardware optimizasyonu disiplinini öğrenmek isteyen MLOps mühendisleri

Quantization research'ünde aktif (AQLM, QuIP#, BitNet, KIVI takip eden) AI Researcher'lar

Neden Bu Eğitim?

Türkiye'de LLM quantization disiplinini matematik + algoritma + production üçlüsüyle uçtan uca işleyen tek ileri seviye program.

GPTQ, AWQ, SmoothQuant, EXL2, GGUF, AQLM, BitNet, QuIP#, HQQ, KIVI'yi karşılaştırmalı + uygulamalı kapsıyor.

Hopper FP8 + Blackwell FP4 native hardware avantajını 2026 datacenter standartlarına bağlıyor.

Reasoning model long-trace serving için KV cache quantization disiplinini uçtan uca öğretiyor.

QAT ile PTQ'nun yetmediği extreme low-bit senaryolarda kalite telafi reçetesi sunuyor.

vLLM + TensorRT-LLM + llama.cpp + SGLang serving stack'lerinde production deployment ustalaştırıyor.

Capstone projesi ile katılımcıya kendi hardware target'ında uygulanabilir quantization pipeline + cost analizi üretimi sağlıyor.

RLHF + Reasoning Models + Mech Interp + CPT + Quantization beşlik frontier set ile production LLM mühendisliğinin tüm cephanesini tamamlıyor.

Kazanımlar

FP16 → INT8 → INT4 → FP8 → FP4 → AQLM 2-bit spektrumunda doğru bit-width seçebilirsiniz.

GPTQ Hessian approximation ve AWQ scaling factor mekanizmalarını implement edebilirsiniz.

SmoothQuant outlier migration ile W8A8 production serving kurabilirsiniz.

GGUF + llama.cpp ile Apple Silicon / Edge / CPU deployment yapabilirsiniz.

Hopper FP8 ve Blackwell FP4 native Tensor Core'larını ustaca kullanabilirsiniz.

AQLM ile 70B model'i RTX 4090 (24GB)'da serve edebilirsiniz.

KIVI 2-bit KV cache ile reasoning model serving cost'unu %50-70 düşürebilirsiniz.

QAT ile PTQ'nun yetmediği extreme low-bit senaryolarda kalite telafisi yapabilirsiniz.

vLLM, TensorRT-LLM, llama.cpp, SGLang quantized serving stack'lerini ustaca yönetebilirsiniz.

Production cost'u 3-10x düşüren + latency'i 2-4x azaltan quantization pipeline'ı tasarlayabilirsiniz.

Gereksinimler

Aktif Python deneyimi (orta-üst seviye), PyTorch ve HuggingFace Transformers temel kullanımı

LLM inference deneyimi (vLLM, llama.cpp, TGI veya benzeri ile en az kavramsal aşinalık)

Linear algebra, sayısal yöntemler (matris operasyonu, Cholesky) temelleri

Transformer mimarisi (attention, MLP, residual stream) temel bilgisi

GPU erişimi (RunPod, Lambda Labs, Modal) — capstone için H100 (80GB) önerilir; RTX 4090 / Apple Silicon ile de katılım mümkün

Eğitim öncesinde Hugging Face hesabı + bir LLM provider (OpenAI/Anthropic/Google) API key

Eğitim Müfredatı

104 Ders

Modül 1: LLM Quantization Mühendisliğine Stratejik Giriş — 2026 Manzarası9 Ders

Modül 2: Quantization Teorisi — Symmetric, Asymmetric, Per-Channel ve Per-Group9 Ders

Modül 3: Post-Training Quantization (PTQ) Temelleri — Calibration ve Outlier Sorunu9 Ders

Modül 4: GPTQ (Generative Pre-trained Transformer Quantization) — Frantar 2022 Derivasyonu9 Ders

Modül 5: AWQ (Activation-aware Weight Quantization) — Lin 2023 Yaklaşımı9 Ders

Modül 6: SmoothQuant ve ZeroQuant — Activation Quantization ile W8A8 Serving9 Ders

Modül 7: GGUF, llama.cpp ve IQ-Quants — Edge ve CPU-Friendly Quantization9 Ders

Modül 8: FP8 ve FP4 — Hopper H100, Blackwell B200, NVFP4 ve MXFP49 Ders

Modül 9: AQLM ve Extreme Quantization — 1-2 Bit ile 70B+ Model Serving9 Ders

Modül 10: KV Cache Quantization — Reasoning Model Long-Trace Serving İçin Kritik9 Ders

Modül 11: Quantization-Aware Training (QAT) — PTQ'nun Sınırlarını Aşma9 Ders

Modül 12: Capstone — Production-Grade Quantization Pipeline İnşası5 Ders

Eğitmen

Şükrü Yusuf KAYA

Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı

Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.

Sıkça Sorulan Sorular

Eğitime Başvur

Sınırlı kontenjan ile butik eğitim.

Gelecek Gruplara Kayıt

Sıradaki grup açıldığında öncelikli bilgi almak için kaydınızı bırakın.

Canlı & İnteraktif Oturumlar

Proje Bazlı Öğrenme

Sektör Odaklı Müfredat

Profesyonel Networking

Birebir Danışmanlık

Eğitmen ile özel görüşme planlayın.

Kaydol

Kategoriler

AI Mühendisliği

Bu eğitim hakkında

Anahtar Çıkarımlar

İleri Seviye LLM Quantization Mühendisliği Eğitimi (GPTQ + AWQ + EXL2 + GGUF + FP8 + FP4)