GPU Memory Ekonomisi: Cache vs Throughput Tradeoff

VRAM sınırlı. Modele ne kadar, cache'e ne kadar, batch'e ne kadar ayırırsın? Bu derste GPU bütçesini tasarlamayı öğreneceksin.

Şükrü Yusuf KAYA

11 dakikalık okuma

24.06.2026

İleri

GPU Memory Ekonomisi#

H100 80GB GPU'n var. Llama-3-70B fp16 modelini host etmek istiyorsun. Ama bekle:

Model ağırlıkları: 140 GB  ← bir tane H100 bile sığmaz!

Single GPU yetmez. 2× H100 = 160 GB. Model 140, kalan 20 GB cache ve activations için.

VRAM Budget Allocation#

Item	Boyut
Model weights	140 GB (Llama-3-70B fp16)
KV cache (her sequence)	~0.32 GB per sequence @ 32K context
Activations (per request)	~2 GB
CUDA kernels + buffer	~5 GB

Tek 2× H100'de mantıklı setup:

Model: 140 GB
Buffer + kernels: 5 GB
Kalan: 15 GB
Cache + activations: 15 GB ÷ (~2.3 GB per concurrent seq) = ~6-7 concurrent

Sadece 6-7 user! Production için yetersiz.

Optimizasyon Yolları#

FP16 → FP8 cache: yarı boyut.

KV cache: 0.32 GB → 0.16 GB per sequence. Aynı 15 GB ile: 6 → 12 concurrent.

Tradeoff: ~%1 quality loss.

Production Reçete#

Llama-3-70B'yi 2× H100 80GB'a sığdır:

vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --tensor-parallel-size 2 \
  --kv-cache-dtype fp8 \
  --enable-prefix-caching \
  --gpu-memory-utilization 0.95 \
  --max-model-len 32768 \
  --max-num-seqs 32  # 32 concurrent

Bu setup ile:

32 concurrent user
~80 req/s sustained
~%90 cache hit rate (eğer iyi system prompt design)
Latency p50 ~500ms, p99 ~2s

ROI Analizi

RunPod fiyatlandırması (Mart 2026): 2× H100 ~

5-6/saat. Aylık

3600-4300. 80 req/s × 60 = 4800 req/dakika. Ayda 200M+ sorgu kapasitesi. Anthropic API ile $5K-50K'lık iş.

✓ Pekiştir#

Bir Sonraki Derste#

Modül 10 bitirme sınavı.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

1. Temeller — Context Penceresi Ekonomisi

GPU Memory Ekonomisi#

VRAM Budget Allocation#

Optimizasyon Yolları#

Production Reçete#

✓ Pekiştir#

Bir Sonraki Derste#

Yorumlar & Soru-Cevap

İlgili İçerikler

Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?

Token Ekonomisi 101: Input vs Output Cost Asimetrisi

Context Window Evrimi: 4K'dan 1M'a 5 Yılda Ne Oldu?