İçeriğe geç

MoE Tarihçesi: Jacobs 1991'den DeepSeek-V3 2024'e — 33 Yıllık Sparse Activation Devrimi

Mixture of Experts'in 33 yıllık entelektüel yolculuğu: Jacobs vd. 1991 orijinal paper ('Adaptive Mixtures of Local Experts'), Shazeer vd. 2017 'Outrageously Large Neural Networks' — modern MoE'nin başlangıcı, GShard 2020 Google scale, Switch Transformer 2021, Mixtral 8x7B (Ocak 2024) açık kaynak devrim, DeepSeek-V3 (Aralık 2024) 671B aktif 37B. 'Niye 33 yıl kapı dışında kaldı, niye şimdi geri döndü?'

Şükrü Yusuf KAYA
80 dakikalık okuma
İleri
MoE Tarihçesi: Jacobs 1991'den DeepSeek-V3 2024'e — 33 Yıllık Sparse Activation Devrimi
🎭 1991 — Robert Jacobs ve İlk MoE
  1. Robert A. Jacobs, Toronto Üniversitesi. Genç bir doktora öğrencisi. Geoff Hinton'un öğrencisi (sonra 'Deep Learning'in babası olacak Hinton). Bir paper yayınladı: 'Adaptive Mixtures of Local Experts'. Fikir basitti ama radikal: 'Tek bir büyük neural network yerine, çoklu uzman ağ kuralım. Her girdi için uygun uzman seçen bir gating network olsun.'
1991'in donanımı (Apple Macintosh 8MB RAM) ile bu fikir lüksti. Birkaç deney yapıldı, paper yayınlandı, sonra unutuldu.
2017'ye atla. Google Brain. Noam Shazeer (Transformer kâşiflerinden) ve Geoff Hinton (artık 70 yaşında, Toronto'dan Google'a katılmış) bir paper yazdı: 'Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer'. 26 yıl sonra MoE'ye dönüş. Bu sefer compute uygun. 137 milyar parametreli MoE network. Çalışıyor.
2024 Aralık. DeepSeek-V3 yayınlandı: 671 milyar parametre toplam, sadece 37 milyar aktif (sparse activation). En güçlü açık-kaynak LLM. Mimarinin temelinde MoE.
Bu 33 yıllık yolculuk — bir fikrin doğuşundan unutuluşuna, yeniden keşfedilmesinden devrime — bu dersin konusu. Sadece teknik değil, bilim tarihi.

Bu Derste Neler Var? (12 Bölüm)#

  1. Pre-MoE dünyası — niye 'tek dev network' sınır
  2. Jacobs vd. 1991 — orijinal MoE paper'ı
  3. Niye 1991-2017 arası unutuldu
  4. Shazeer vd. 2017 — modern dönüş
  5. GShard 2020 — Google scale MoE
  6. Switch Transformer 2021 — sadeleştirme
  7. GLaM 2021 — instruction tuning + MoE
  8. Mixtral 8x7B (Ocak 2024) — açık kaynak patlama
  9. DeepSeek-V3 (Aralık 2024) — 671B/37B sparse frontier
  10. MoE niye 'şimdi': 33 yılın sebebi
  11. Türkçe için MoE pratik anlam
  12. Egzersizler

1-3. Pre-MoE Dünyası ve 1991#

1.1 'Tek dev network' problemi#

1980'ler-1990'lar. Neural network araştırmacıları bir paradoksla karşıydı: model daha büyük olunca daha iyi öğreniyor (kapasite). Ama:
Eğitim maliyeti: parametrelerle quadratic veya daha kötü Inference maliyeti: her input için tüm parametreler aktif Specialization eksik: 'tek network her şey için' verimsiz

1.2 Jacobs'un içgörüsü#

Robert Jacobs Toronto'da Hinton'un altında çalışıyor. Şu soruyu sordu: 'Network'ün bir kısmını eğitmek, hepsini eğitmekten daha verimli olabilir mi?'
Fikir 1: 'Modular network'. Beyin gibi — farklı bölgeler farklı görevler için. Fikir 2: 'Gating mechanism'. Her input için hangi modülün aktif olacağına karar veren küçük bir 'controller'.
İkisini birleştir: Mixture of Experts.

1.3 Jacobs vd. 1991 paper'ı#

'Adaptive Mixtures of Local Experts' Robert A. Jacobs, Michael I. Jordan, Steven J. Nowlan, Geoffrey E. Hinton Neural Computation, 1991
Mimari (basitleştirilmiş):
Input → Gating Network → Probabilities over N experts Input → Expert 1 → output_1 Input → Expert 2 → output_2 ... Input → Expert N → output_N Final output = Σ_i (gate_prob_i × output_i)
Not: bu soft mixture — tüm expert'lar aktif, ağırlıklı toplam. Modern 'sparse MoE' (sadece top-k aktif) henüz yok.

1.4 1991-2017: 26 yıllık unutulmuşluk#

Niye?
(a) Compute yetmiyordu: 1991'de MoE'nin avantajı gözlenemezdi (tüm modeller küçüktü).
(b) AI Winter (1990-2010): neural network'ler genel olarak unutuldu. SVM, random forest popüler. 'Deep learning' terimi 2006'da Hinton ile geri geldi.
(c) Theoretical limits: MoE training stabilite sorunları vardı (expert collapse, all-to-one gating). Çözümler 2017'ye kadar bulunamadı.
(d) Hardware: GPU paralelleştirme 2010'larda olgunlaştı. 2000'lerde MoE GPU-friendly değildi.
Jacobs'un paper'ı 1991'den 2017'ye kadar uyudu.

2.1 Hinton'un sürekli dönüşü#

Enteresan: Geoff Hinton'un kendisi Jacobs paper'ında ortak yazar. Hinton 1991'de bunu Toronto'da deniyor. Sonra unutuyor. 2017'de Noam Shazeer ile birlikte (yine ortak yazar) tekrar deniyor. Bilim, döngü.

4-7. Shazeer 2017 Modern Dönüş ve Sonrası#

4.1 Shazeer vd. 2017 paper#

'Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer' Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean ICLR 2017, Google Brain
2017 başı. Yazar listesi olağanüstü: Shazeer (sonradan Transformer'ı yazacak), Hinton (deep learning peygamberi), Jeff Dean (Google AI başı), Quoc Le (BERT'ten önce). Heavy hitters.
Key insight: sparse gating. Jacobs 1991'in 'soft mixture' (tüm expert'lar aktif) yerine, top-k experts seçiliyor (k=2 typical). Geri kalan tamamen kapalı.
Matematik:
Input x → Gating: G(x) = top_k(softmax(x · W_g)) ↓ Sparse: sadece k expert aktif ↓ Output = Σ_{i ∈ top_k} G(x)_i × Expert_i(x)

4.2 Niye sparse iyi?#

Hesap verimliliği: 137B param model var ama her token için sadece küçük bir kısmı aktif. FLOPs dramatic düşer.
Specialization: her expert farklı pattern'e specialise olabiliyor (deneyimsel olarak: dil, konu, syntax).
Capacity scaling: model parametresi artırırken inference maliyeti sabit kalıyor.

4.3 Empirik (2017)#

LM1B (language model) benchmark:
  • Dense 4B param: baseline
  • MoE 137B (4 active): 50% daha düşük perplexity, aynı FLOPs!
Bu dramatik. Aynı compute, dev kapasite.

5.1 GShard 2020 (Google)#

'GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding' Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, Zhifeng Chen Google, Aralık 2020
600B param MoE translation model. 100 dilden 100 dile çeviri. Production system.
GShard'ın inovasyonu: automatic sharding. 600B param tek GPU'ya sığmaz. GShard otomatik olarak expert'ları farklı GPU'lara dağıtıyor. 'expert parallelism' — yeni paralelleşme boyutu.

6.1 Switch Transformer 2021 (Google)#

'Switch Transformer: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity' William Fedus, Barret Zoph, Noam Shazeer Google, Ocak 2021
Sadeleştirme: 'top-k=2 yerine top-k=1 (sadece tek expert)'.
Niye? Top-1 daha hızlı (yarısı compute), aynı kalite. "Mistral'in işine yarayacak".
Switch-C: 1.6 trilyon parametre. O zamana kadar görülen en büyük model.

7.1 GLaM 2021 (Google)#

'GLaM: Efficient Scaling of Language Models with Mixture-of-Experts' Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, ... Google, Aralık 2021
1.2 trilyon param MoE LM. GPT-3 175B'den 7× büyük, ama eğitim için GPT-3'ün 1/3 enerjisi harcanmış.
MoE'nin eko-friendly boyutu kanıtlandı.
Ama: hâlâ Google kapalı. Open-source 2023'e kadar yok.

8-11. Mixtral, DeepSeek-V3, Niye Şimdi, Türkçe#

8.1 Mixtral 8x7B (Ocak 2024) — Açık Kaynak Devrim#

Fransız startup Mistral AI, Aralık 2023'te küçük teaser:
magnet:?xt=urn:btih:208b101a0f51514ecf285885a8b0f6fb1a1e4d7d
Bir torrent. İçinde Mixtral-8x7B model ağırlıkları. Açık-kaynak ilk büyük MoE.
Mimari:
  • 47B toplam parametre
  • Her FFN layer'da 8 expert
  • Top-2 routing
  • Per token: ~13B parametre aktif (47B'nin %28'i)
Kalite:
  • MMLU: %71
  • HumanEval: %40
  • Llama-2-70B'yle benzer kalite, 4× az aktif compute
Lisans: Apache 2.0 (commercial OK). Devrim.

9.1 DeepSeek-V3 (Aralık 2024) — Frontier MoE#

'DeepSeek-V3 Technical Report' DeepSeek-AI arXiv: 2412.19437, Aralık 2024
Mimari:
  • 671B toplam parametre
  • 256 expert per FFN layer (Mixtral'in 32×'i!)
  • Top-8 routing
    • 1 shared expert (always-active, common knowledge)
  • Per token: ~37B parametre aktif (671B'nin %5.5'i)
Kalite:
  • MMLU: %88.5 (GPT-4o seviye)
  • MATH: %90.2 (o1 seviye)
  • HumanEval: %82.3
  • Multiple benchmark'larda GPT-4o ile başa baş veya üstün
Eğitim maliyeti: 5.6M(raporlanan).Kars\cılas\ctırma:Llama3405B 5.6M (raporlanan). Karşılaştırma: Llama-3-405B ~80M. DeepSeek'in MoE verimliliği.

9.2 DeepSeek'in inovasyonu#

DeepSeek-V3 paper'ında 3 yeni teknik:
  • Multi-head Latent Attention (MLA): attention için MoE benzeri sparse mekanizma
  • Auxiliary-loss-free load balancing: expert utilization'ı garanti, ek loss yok
  • Multi-token prediction: bir adım yerine birden fazla token tahmin eğitimi
Bu Modül 18.3'te detaylanacak.

10.1 MoE niye 'şimdi' (2024+)?#

33 yıllık gecikmenin sebepleri çözüldü:
(a) Compute büyüklüğü: 2024'te 80GB GPU + 10K+ GPU cluster mevcut. 1991'de tek 8MB Mac.
(b) Algoritmik olgunlaşma: load balancing (Shazeer 2017), automatic sharding (GShard 2020), auxiliary-loss-free (DeepSeek 2024) — sorunlar çözüldü.
(c) Distillation tekniği: büyük MoE'den küçük dense'e distill — production deploy mümkün.
(d) Açık kaynak ekosistem: vLLM, HF, FSDP MoE support — pratisyenlere ulaşılabilir.
(e) Pre-training data bolluğu: trilyonlarca token mevcut. MoE bu kadar veriyi 'yutar' kapasitede.
5 faktör de 2020'lerde olgunlaştı. MoE'nin geri dönüşü kaçınılmazdı.

11.1 Türkçe için MoE pratik#

DeepSeek-V3 API (Together AI veya direkt DeepSeek):
  • Türkçe quality: çok iyi (multilingual training)
  • Maliyet: 0.27/1Minput,0.27 / 1M input, 1.10 / 1M output
  • GPT-4o'nun 1/10'u maliyet, benzer kalite
Mixtral 8x7B self-host:
  • 2× H100 gerekli (47B param, AWQ ile 1× H100 sınırda)
  • Türkçe quality: OK (multilingual ama Türkçe yoğunluğu az)
  • Türkçe DPO fine-tune (Modül 15.6) ile %30 boost mümkün
Pratik karar matrisi:
  • Cost-sensitive Türkçe SaaS → DeepSeek-V3 API
  • KVKK / self-host gerektiren → Mixtral 8x7B (veya R1-Distill Modül 17)
  • Reasoning ağırlıklı → R1 (Modül 17) > V3
  • General reasoning + chat → V3 > R1
✅ Ders 18.1 Özeti — MoE Tarihçesi
33 yıllık yolculuk: Jacobs 1991 orijinal fikir (soft mixture) → 26 yıl unutulmuşluk → Shazeer 2017 sparse gating modern dönüş → GShard 2020 Google scale → Switch Transformer 2021 top-1 → GLaM 2021 efficient scaling → Mixtral Ocak 2024 açık-kaynak devrim → DeepSeek-V3 Aralık 2024 671B/37B frontier (5.6Mtraining).MoEniye2024te:compute+algoritma+distillation+ekosistem+data.Tu¨rkc\ceic\cin:DeepSeekV3API(5.6M training). MoE niye 2024'te: compute + algoritma + distillation + ekosistem + data. **Türkçe için**: DeepSeek-V3 API (0.27/1M) cost-sensitive için ideal, Mixtral self-host KVKK gereksinimi için. Sonraki ders: MoE matematik anatomi (gating, routing, load balancing) detaylı.

Sonraki Ders: MoE Matematik Anatomi#

Ders 18.2'de MoE'nin iç matematiği. Gating network nasıl çalışıyor, top-k routing'in türevi, load balancing loss (Shazeer), expert collapse problemi. Sparse activation'ın FLOP hesabı: niye MoE 'free lunch' değil ama gerçek değer. PyTorch'ta MoE layer sıfırdan implementation.

Sık Sorulan Sorular

**Gerçek verimlilik**, ama dikkat edilmesi gereken nüanslar var: **Doğru olan**: - Inference compute (FLOP) per token: aktif parametrelerle orantılı. DeepSeek-V3 inference compute'u 37B dense model'inkiyle aynı. - Quality: 671B param dense ile karşılaştırılır (capacity). **Yanıltıcı olabilen**: - Memory: tüm parametreler RAM'de tutulur (671B). Yani inference için 671B model boyutu kadar VRAM gerek. - Eğitim compute: 671B param'ın tamamı eğitilir (her batch farklı expert kombinasyonları aktif olur). **Sonuç**: MoE = 'küçük inference compute + büyük memory'. Memory bol cloud (H100 cluster) için ideal, tek GPU consumer için zor.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler