GPU Memory Ekonomisi: Cache vs Throughput Tradeoff

Name: GPU Memory Ekonomisi: Cache vs Throughput Tradeoff
Author: Şükrü Yusuf KAYA

VRAM sınırlı. Modele ne kadar, cache'e ne kadar, batch'e ne kadar ayırırsın? Bu derste GPU bütçesini tasarlamayı öğreneceksin.

Şükrü Yusuf KAYA

11 min read

5/14/2026

Advanced

GPU Memory Ekonomisi

H100 80GB GPU'n var. Llama-3-70B fp16 modelini host etmek istiyorsun. Ama bekle:

Model ağırlıkları: 140 GB  ← bir tane H100 bile sığmaz!

Single GPU yetmez. 2× H100 = 160 GB. Model 140, kalan 20 GB cache ve activations için.

VRAM Budget Allocation#

Item	Boyut
Model weights	140 GB (Llama-3-70B fp16)
KV cache (her sequence)	~0.32 GB per sequence @ 32K context
Activations (per request)	~2 GB
CUDA kernels + buffer	~5 GB

Tek 2× H100'de mantıklı setup:

Model: 140 GB
Buffer + kernels: 5 GB
Kalan: 15 GB
Cache + activations: 15 GB ÷ (~2.3 GB per concurrent seq) = ~6-7 concurrent

Sadece 6-7 user! Production için yetersiz.

Optimizasyon Yolları#

FP16 → FP8 cache: yarı boyut.

KV cache: 0.32 GB → 0.16 GB per sequence. Aynı 15 GB ile: 6 → 12 concurrent.

Tradeoff: ~%1 quality loss.

Production Reçete#

Llama-3-70B'yi 2× H100 80GB'a sığdır:

vllm serve meta-llama/Llama-3.1-70B-Instruct \
  --tensor-parallel-size 2 \
  --kv-cache-dtype fp8 \
  --enable-prefix-caching \
  --gpu-memory-utilization 0.95 \
  --max-model-len 32768 \
  --max-num-seqs 32  # 32 concurrent

Bu setup ile:

32 concurrent user
~80 req/s sustained
~%90 cache hit rate (eğer iyi system prompt design)
Latency p50 ~500ms, p99 ~2s

ROI Analizi

RunPod fiyatlandırması (Mart 2026): 2× H100 ~

5-6/saat. Aylık

3600-4300. 80 req/s × 60 = 4800 req/dakika. Ayda 200M+ sorgu kapasitesi. Anthropic API ile $5K-50K'lık iş.

✓ Pekiştir#

Bir Sonraki Derste#

Modül 10 bitirme sınavı.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

GPU Memory Ekonomisi: Cache vs Throughput Tradeoff

GPU Memory Ekonomisi

VRAM Budget Allocation#

Optimizasyon Yolları#

Production Reçete#

✓ Pekiştir#

Bir Sonraki Derste#

Yorumlar & Soru-Cevap

Related Content

Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?

Token Ekonomisi 101: Input vs Output Cost Asimetrisi

Context Window Evrimi: 4K'dan 1M'a 5 Yılda Ne Oldu?

Subscribe to Newsletter