MoE Quantization & Inference: Expert Offload + Dynamic Routing Under Quant
MoE'lerin inference'ı dense'lerden farklı: bazı expert'ler 'cold' (nadir kullanılır) → CPU/disk offload. Dynamic routing × quantization etkileşimi (router'ın quant tolerance'ı), MoE-spesifik vLLM tuning, Mixtral AWQ + sparse expert loading. RTX 4090'da Mixtral 8×7B serving (~140 tok/s).
Şükrü Yusuf KAYA
28 dakikalık okuma
İleri1. Mixtral 8×7B RTX 4090'da Çalıştırmak#
Mixtral 8×7B = 46.7B total params:
- bf16: 93 GB → 4090'a sığmaz
- AWQ int4: 24 GB → 4090'a sığar marjinal
-
- GGUF Q4_K_M: 26 GB (4090'da sığmaz çünkü no offload)
-
- Expert CPU offload (cold expert'ları RAM'e): 12-18 GB GPU + 64 GB RAM
# vLLM ile Mixtral AWQ vllm serve TheBloke/Mixtral-8x7B-Instruct-v0.1-AWQ \ --quantization awq \ --gpu-memory-utilization 0.95 \ --max-model-len 4096 # 22 GB VRAM kullanır # Throughput (RTX 4090): # - Single user: 95 tok/s # - batch=8: 380 tok/s # - batch=32: OOM (capacity limit)
2. Cold Expert Offload#
Reality: Mixtral 8×7B'de bazı expert'ler %30 zamanda kullanılır, bazıları %5. Tüm expert'leri GPU'da tutmak gereksiz.
Strateji:
- Top-2 hot expert (her layer'da en çok kullanılan 2 expert) → GPU
- Cold expert'ler → CPU RAM
- Bir cold expert çağrılırsa GPU'ya page'le, sonra geri
Kütüphane: (Eliseev & Mazur, 2024)
mixtral-offloadingfrom mixtral_offloading import MixtralForCausalLM model = MixtralForCausalLM.from_pretrained( "mistralai/Mixtral-8x7B-Instruct-v0.1", device_map="cuda:0", expert_offload="cpu", hot_experts_per_layer=2, # GPU'da hangi expert'ler cache_size=4, # LRU eviction ) # RTX 4090 + 64GB RAM: rahat çalışır, ~12 GB VRAM # Throughput: ~25-40 tok/s (cold cache miss'lerde yavaşlar)
✅ Part V tamamlandı
- Mixtral AWQ ile vLLM serving denesi. 2) Specialization probe + Mixture analizi. 3) Sonraki Part: Part VI — Vision-Language Multimodal FT (Llama 3.2 Vision, Qwen 2.5-VL, Pixtral).
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations