MLA, GQA'yı tamamen replace edecek mi gelecekte?

DeepSeek-V3 İnovasyonları: MLA, Auxiliary-Loss-Free, Multi-Token Prediction — 2024 Frontier'ın 3 Anahtarı

DeepSeek-V3'ün 3 kritik yeniliği derinlemesine: (1) Multi-head Latent Attention (MLA) — KV cache'i %93 azaltan attention varyantı, (2) Auxiliary-loss-free load balancing — bias trick ile temiz gating, (3) Multi-token prediction (MTP) — eğitimde 2-3 token paralel tahmin. Her birinin matematik anatomisi, niye işe yarıyor, V3'ün $5.6M training cost'una nasıl katkıda bulundu. Türkçe için pratik kullanım.

Şükrü Yusuf KAYA

85 dakikalık okuma

13.05.2026

İleri

DeepSeek-V3 İnovasyonları: MLA, Auxiliary-Loss-Free, Multi-Token Prediction — 2024 Frontier'ın 3 Anahtarı

💎 DeepSeek-V3 — 3 Buluşun Şıklığı

Aralık 2024. DeepSeek-V3 paper'ı çıktığında AI dünyası iki şeye şaşırdı: kalite ve maliyet. 671B param model GPT-4o seviyesinde performance, sadece **

5.6M** training cost. Karşılaştırma: GPT-4 tahminen

50-100M, Llama-3-405B ~$80M.

Nasıl mümkün? Tek bir 'sihirli numara' değil. Üç algoritmik yenilik birlikte çalışıyor:

1) MLA (Multi-head Latent Attention): KV cache'i %93 azaltıyor. Memory devrim.

2) Auxiliary-loss-free load balancing: gating'i auxiliary loss'la kirletmeden balance ediyor.

3) Multi-Token Prediction (MTP): training sırasında 2-3 token paralel tahmin. Data efficiency artıyor.

Üç birden = eğitim 4-5× ucuz, inference 3-4× hızlı.

Bu ders her birini matematik ve mühendislik derinliğinde inceliyor. 85 dakika sonra: V3'ün niye bu kadar etkili olduğunu, kendi modellerinde nasıl uygulayabileceğini, Türkçe için anlamını kavramış olacaksın.

Bu Derste Neler Var? (11 Bölüm)#

DeepSeek-V3 paper özet
Innovation 1: MLA matematiği — KV cache nasıl %93 azalır
MLA detaylı türev — projection matrices
MLA vs GQA karşılaştırma
Innovation 2: Auxiliary-loss-free routing
Bias trick matematik — gating sürekli güncelleme
Innovation 3: Multi-Token Prediction
MTP eğitim mimarisi
3 inovasyonun toplam etkisi — $5.6M training
Türkçe için DeepSeek-V3 pratik kullanım
Egzersizler

1. DeepSeek-V3 Paper Özet#

1.1 Paper künyesi#

'DeepSeek-V3 Technical Report' DeepSeek-AI arXiv: 2412.19437, 27 Aralık 2024

65 sayfa, detaylı teknik dökümantasyon. Çoğu Çinli paper olarak İngilizce yayınlandı.

1.2 Model özet#

Architecture: MoE transformer
Total params: 671B
Active params per token: 37B (%5.5)
Layers: 61
Experts per FFN layer: 256 (+1 shared)
Top-k: 8 (out of 256)
Context length: 128K (extended)
Vocab size: 129K (multilingual)

1.3 Training detayları#

Compute: 2.788M H800 GPU hours = ~$5.6M (raporlanan)
Training data: 14.8 trilyon token (multilingual)
Türkçe data: paper'da belirtilmedi ama 'major languages' kapsamında
Training time: ~2 ay (1024 H800 ile)

1.4 Quality (benchmark sonuçları)#

MMLU: %88.5 (GPT-4o ile başa baş)
MATH: %90.2 (o1 seviyesi)
HumanEval: %82.3
MMLU-Pro: %75.9
DROP: %85.4

Çoğu benchmark'ta GPT-4o ile kıyaslanabilir veya üstün.

1.5 Paper'ın 3 ana katkısı#

Giriş paragraphtan: 'We present three key innovations that enable V3's efficiency-quality balance: (1) Multi-head Latent Attention, (2) Auxiliary-loss-free strategy for load balancing, (3) Multi-Token Prediction objective.'

Her biri ayrı bölümde detaylı.

2-4. Multi-head Latent Attention (MLA)#

2.1 Problem: KV cache büyük#

Standart multi-head attention'da KV cache her token için saklanır. Llama-3-70B 128K context:

64 layer × 8 KV head × 128 dim × 128K context × 2 byte = ~17 GB KV cache per request

Production'da bu çok yüksek. Concurrent users sınırlı.

2.2 GQA (Grouped Query Attention, Modül 8.2)#

Mevcut çözüm: KV head sayısını azalt. Q head 64, KV head 8 → memory 8× azalır.

Llama-3 GQA kullanıyor. Ama hâlâ önemli memory.

2.3 MLA İçgörüsü#

DeepSeek: 'KV cache'i low-rank approximation ile sıkıştır. Her token için K + V'yi tek bir latent vector'e indirge'.

Matematik:

Normal attention:
K = X · W_K  ∈ ℝ^{seq × d_kv}
V = X · W_V  ∈ ℝ^{seq × d_kv}
Cache: K + V (2 × seq × d_kv)

MLA:
Compressed latent: c_KV = X · W_DKV  ∈ ℝ^{seq × d_compressed}
Where d_compressed << d_kv

Upcast: 
  K = c_KV · W_UK
  V = c_KV · W_UV
Cache: sadece c_KV (1 × seq × d_compressed)

Pratikte: d_kv = 512 normal, d_compressed = 64-128. KV cache 4-8× küçülüyor.

2.4 MLA empirik#

DeepSeek-V3 vs DeepSeek-V2:

KV cache: 1700 KB/token → 70 KB/token (24× azalma)
Yani 128K context per request: 9 GB → 0.4 GB
Concurrent users 5-10× artıyor!

Quality: aynı (sıfır loss). Tamamen verimlilik kazancı.

4.1 MLA vs GQA Karşılaştırma#

Metrik	MHA	GQA	MLA
KV cache per token	100%	12.5%	5%
Quality (perplexity)	baseline	-1%	aynı (baseline)
Implementation complexity	basit	basit	orta

MLA = en agresif memory reduction, quality kaybı yok. Frontier model standardı oluyor.

5-9. Aux-Loss-Free + MTP + Toplam Etki#

5.1 Geleneksel Load Balancing Problemi#

Shazeer 2017 (Ders 18.2): auxiliary loss → load balance.

Problem: aux loss task loss'la çelişir. Model 'kaliteli output mu, balanced routing mu' arasında trade-off yapmak zorunda.

Empirical: %3-5 quality degradation aux loss yüzünden.

5.2 DeepSeek'in çözümü#

Fikir: 'Auxiliary loss yerine, gating bias'larını sürekli güncelle'.

Matematik:

g(x)_i = softmax(W_g · x + b_i)

b_i sürekli update edilir:
- Eğer expert_i under-used → b_i artırılır (daha sık seçilsin)
- Eğer expert_i over-used → b_i azaltılır

Update rule:
b_i ← b_i + u × (target_load - actual_load_i)

u = update rate (küçük, ~0.001). 'Target load' = 1/N (uniform).

Bu EMA (Exponential Moving Average) benzeri kontrol. Otomatik balance, aux loss yok.

5.3 Aux-free'nin avantajı#

DeepSeek paper'ı empirik gösterdi:

Aux loss with: GSM8K %78
Aux-free: GSM8K %82 (+%4)

Quality boost gerçek.

7.1 Multi-Token Prediction (MTP)#

Standart eğitim: model her step'te 1 token tahmin eder.

[token_1, token_2, ..., token_n] → predict token_{n+1}

MTP: aynı anda birden fazla token tahmin eder.

[token_1, ..., token_n] → predict token_{n+1}, token_{n+2}, token_{n+3}

Eğitim sırasında 3 paralel head çıkar — her biri farklı 'depth' tahmin.

7.2 MTP mimarisi (simplified)#

Base transformer → hidden state h_n
Head 1: h_n → predict t_{n+1}
Head 2: h_n → predict t_{n+2}
Head 3: h_n → predict t_{n+3}

Loss = CE(head_1, t_{n+1}) + CE(head_2, t_{n+2}) + CE(head_3, t_{n+3})

Inference'ta sadece head_1 kullanılır (1 token output). Diğer head'ler training-only.

7.3 MTP niye işe yarar?#

Data efficiency: model her token için 3 kat 'supervision sinyali' alıyor. Aynı pre-training datadan daha çok öğreniyor.

Empirical: MTP olmadan vs olan training:

MMLU: %86 → %88.5
Same training data, %3 better

Dataset size sabitse 'free win'.

8.1 3 İnovasyonun Toplam Etkisi#

DeepSeek-V3'ün $5.6M training cost'una katkılar:

MLA:

Training-time memory tasarrufu: ~%30 (KV cache az)
Daha büyük batch mümkün → daha az step → 1.3× hızlı

Aux-loss-free:

Training stability artmış: divergent run'lar azalmış
Aynı compute'la daha iyi quality (~%4)

MTP:

Aynı data daha verimli kullanılıyor
Effective data size ~3× büyümüş gibi

Total: ~%50-60 compute tasarruf vs naif MoE eğitim. Frontier scale'de bu büyük fark.

9.1 Diğer optimizasyonlar#

Paper başka teknikler de var:

FP8 mixed precision: bf16'dan daha düşük precision
DualPipe parallelism: pipeline parallelism optimizasyonu
Cross-node all-to-all kernel: expert paralleli için custom CUDA

Hepsi birleştiğinde V3'ün ekonomisi ortaya çıkıyor.

10.1 Türkçe için DeepSeek-V3 pratik#

API erişim:

DeepSeek direkt API (Çin merkezli, KVKK için dikkat)
Together AI proxy (ABD, daha güvenli)
API maliyet: $0.27 input,$ 1.10 output per 1M token

Self-host:

Tam V3 (671B): 4-8× H100, çok pahalı, hobbyist scope dışı
R1-Distill kullan (Modül 17): V3'ün distilled versiyonu, single H100'de çalışır

Türkçe quality:

DeepSeek-V3 multilingual training, Türkçe iyi
TR-MMLU benchmark: tahmini %75 (GPT-4o %82, Claude %78)
Production-grade Türkçe asistan için API uygun

✅ Ders 18.3 Özeti — DeepSeek-V3 İnovasyonları

DeepSeek-V3'ün

5.6M training cost'unu mümkün kılan **3 algoritmik yenilik**: **MLA** (KV cache 24× azalır), **Auxiliary-loss-free** (bias trick ile clean gating, %4 quality boost), **MTP** (multi-token prediction, %3 data efficiency boost). Birlikte: ~%50-60 compute tasarruf. **Türkçe için**: API uygun (

0.27/1M, GPT-4o'nun 1/10'u), self-host R1-Distill (Modül 17 tarafından distill). Frontier MoE design'ın modern fiili standardı. Sonraki ders: Türkçe için MoE pratik — Mixtral DPO fine-tune capstone.

Sonraki Ders: Türkçe MoE Pratik Capstone#

Ders 18.4'te Modül 18'in capstone'u. Mixtral 8x7B-Instruct üzerine Türkçe DPO fine-tune. 5K Türkçe karşılaştırma data + QLoRA + DPO + vLLM deployment. Expert utilization Türkçe için optimize. Müfredatın 9. production artefaktı.

Sık Sorulan Sorular

Muhtemelen evet, ama yavaş geçiş: **MLA avantajları**: - KV cache %93 az - Quality kaybı yok - 128K+ context'te dramatic memory savings **MLA dezavantajları**: - Implementation karmaşık (down + up projection) - vLLM gibi serving framework'lerinde henüz native support sınırlı (2025 başı) - Tüm kodbase'leri MLA'ya migrate etmek iş **Adopt timeline**: - 2024 sonu: DeepSeek-V3 ilk büyük MLA model - 2025: Llama-4, Mixtral-NeMo MLA benzeri benimser muhtemelen - 2026: standart olur GQA hâlâ 2025 boyunca yaygın. 2027'de MLA hakim olur tahmini.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Kurs Çerçevesi ve Atölye Kurulumu