İçeriğe geç

GPU Memory Ekonomisi: Cache vs Throughput Tradeoff

VRAM sınırlı. Modele ne kadar, cache'e ne kadar, batch'e ne kadar ayırırsın? Bu derste GPU bütçesini tasarlamayı öğreneceksin.

Şükrü Yusuf KAYA
11 dakikalık okuma
İleri

GPU Memory Ekonomisi

H100 80GB GPU'n var. Llama-3-70B fp16 modelini host etmek istiyorsun. Ama bekle:
Model ağırlıkları: 140 GB ← bir tane H100 bile sığmaz!
Single GPU yetmez. 2× H100 = 160 GB. Model 140, kalan 20 GB cache ve activations için.

VRAM Budget Allocation#

ItemBoyut
Model weights140 GB (Llama-3-70B fp16)
KV cache (her sequence)~0.32 GB per sequence @ 32K context
Activations (per request)~2 GB
CUDA kernels + buffer~5 GB
Tek 2× H100'de mantıklı setup:
  • Model: 140 GB
  • Buffer + kernels: 5 GB
  • Kalan: 15 GB
  • Cache + activations: 15 GB ÷ (~2.3 GB per concurrent seq) = ~6-7 concurrent
Sadece 6-7 user! Production için yetersiz.

Optimizasyon Yolları#

FP16 → FP8 cache: yarı boyut.
KV cache: 0.32 GB → 0.16 GB per sequence. Aynı 15 GB ile: 6 → 12 concurrent.
Tradeoff: ~%1 quality loss.

Production Reçete#

Llama-3-70B'yi 2× H100 80GB'a sığdır:
vllm serve meta-llama/Llama-3.1-70B-Instruct \ --tensor-parallel-size 2 \ --kv-cache-dtype fp8 \ --enable-prefix-caching \ --gpu-memory-utilization 0.95 \ --max-model-len 32768 \ --max-num-seqs 32 # 32 concurrent
Bu setup ile:
  • 32 concurrent user
  • ~80 req/s sustained
  • ~%90 cache hit rate (eğer iyi system prompt design)
  • Latency p50 ~500ms, p99 ~2s
ROI Analizi
RunPod fiyatlandırması (Mart 2026): 2× H100 ~56/saat.Aylık5-6/saat. Aylık 3600-4300. 80 req/s × 60 = 4800 req/dakika. Ayda 200M+ sorgu kapasitesi. Anthropic API ile $5K-50K'lık iş.

✓ Pekiştir#

Bir Sonraki Derste#

Modül 10 bitirme sınavı.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler