GPU Memory Ekonomisi: Cache vs Throughput Tradeoff
VRAM sınırlı. Modele ne kadar, cache'e ne kadar, batch'e ne kadar ayırırsın? Bu derste GPU bütçesini tasarlamayı öğreneceksin.
Şükrü Yusuf KAYA
11 min read
AdvancedGPU Memory Ekonomisi
H100 80GB GPU'n var. Llama-3-70B fp16 modelini host etmek istiyorsun. Ama bekle:
Model ağırlıkları: 140 GB ← bir tane H100 bile sığmaz!
Single GPU yetmez. 2× H100 = 160 GB. Model 140, kalan 20 GB cache ve activations için.
VRAM Budget Allocation#
| Item | Boyut |
|---|---|
| Model weights | 140 GB (Llama-3-70B fp16) |
| KV cache (her sequence) | ~0.32 GB per sequence @ 32K context |
| Activations (per request) | ~2 GB |
| CUDA kernels + buffer | ~5 GB |
Tek 2× H100'de mantıklı setup:
- Model: 140 GB
- Buffer + kernels: 5 GB
- Kalan: 15 GB
- Cache + activations: 15 GB ÷ (~2.3 GB per concurrent seq) = ~6-7 concurrent
Sadece 6-7 user! Production için yetersiz.
Optimizasyon Yolları#
FP16 → FP8 cache: yarı boyut.
KV cache: 0.32 GB → 0.16 GB per sequence.
Aynı 15 GB ile: 6 → 12 concurrent.
Tradeoff: ~%1 quality loss.
Production Reçete#
Llama-3-70B'yi 2× H100 80GB'a sığdır:
vllm serve meta-llama/Llama-3.1-70B-Instruct \ --tensor-parallel-size 2 \ --kv-cache-dtype fp8 \ --enable-prefix-caching \ --gpu-memory-utilization 0.95 \ --max-model-len 32768 \ --max-num-seqs 32 # 32 concurrent
Bu setup ile:
- 32 concurrent user
- ~80 req/s sustained
- ~%90 cache hit rate (eğer iyi system prompt design)
- Latency p50 ~500ms, p99 ~2s
ROI Analizi
RunPod fiyatlandırması (Mart 2026): 2× H100 ~3600-4300. 80 req/s × 60 = 4800 req/dakika. Ayda 200M+ sorgu kapasitesi. Anthropic API ile $5K-50K'lık iş.
✓ Pekiştir#
Bir Sonraki Derste#
Modül 10 bitirme sınavı.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Context Penceresi Ekonomisi
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Start Learning1. Temeller — Context Penceresi Ekonomisi
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
Start Learning1. Temeller — Context Penceresi Ekonomisi