Cost Engineering: 4090 Lokal mi Cloud H100 mu? — Breakeven, Spot ve TCO Matematiği
Her FT mühendisinin sorduğu sessiz soru: 'Bunu lokal 4090'da mı yapsam, cloud'a mı atayım, hangisi ucuz?' Cookbook'un kesin cevap matematiği: RTX 4090 amortismanı (₺), elektrik (₺3.5/kWh × 450W), bulut saat fiyat tablosu (Lambda/RunPod/CoreWeave), spot risk hesabı, breakeven süresi, hybrid stratejisi (4090 dev + cloud production).
Şükrü Yusuf KAYA
28 dakikalık okuma
Orta🎯 Karar netliği
Bu ders bittiğinde her FT iş yükü için kâğıt-kalem ile lokal vs cloud cevabı verebileceksin. RTX 4090 alır mıyım? Lambda 1-yr reserve mı? Spot instance bütçemde mi? — Hepsi sayıyla.
1. RTX 4090 Amortismanı (TR perspektif)#
| Kalem | TL (2026) | $ ekiv |
|---|---|---|
| RTX 4090 (FE / ROG / Suprim) | ₺75,000 | $2,250 |
| Uygun PSU (1000W 80+ Plat) | ₺7,000 | $210 |
| Soğutma (case, fan, hava) | ₺5,000 | $150 |
| Ek RAM (64GB DDR5) | ₺8,000 | $240 |
| NVMe Gen4 2TB | ₺6,000 | $180 |
| Workstation (kalan parçalar) | ₺40,000 | $1,200 |
| Toplam dev rig | ₺141,000 | ~$4,200 |
Elektrik#
- Full FT load: ~500W (4090 450W + sistem)
- Türkiye ortalama tarife (2026, kademe 2): ₺3.50/kWh
- 1 saat full load: 0.5 kWh × ₺3.50 = ₺1.75/saat
3-yıllık amortisman#
- ₺141,000 / 3 yıl / 365 gün = ₺129/gün
- Günde 8 saat aktif kullanım: ₺129 / 8 = ₺16/saat amortisman
-
- elektrik ₺1.75 = ~₺18/saat tam TCO
2. Cloud GPU Saatlik Tablosu (Q1 2026)#
| Sağlayıcı | GPU | $/saat (on-demand) | $/saat (1-yr) | Türkiye'den erişim |
|---|---|---|---|---|
| RunPod Community | RTX 4090 | $0.34-0.69 | — | iyi (EU node'lar) |
| RunPod Secure | RTX 4090 | $0.99 | — | iyi |
| Vast.ai | RTX 4090 | $0.20-0.50 | — | medium (spot) |
| Lambda | A100 80GB | $1.79 | $1.20 | iyi |
| Lambda | H100 SXM 80GB | $2.99 | $1.99 | iyi |
| Lambda 8×H100 | 8×H100 SXM | $23.92 | $15.92 | iyi |
| CoreWeave 8×H100 | 8×H100 SXM | $24.32 | $18.40 | iyi |
| AWS p5.48xlarge | 8×H100 | $98.32 | $55.62 | iyi (EU regions) |
| Together AI | H100 cluster | $2.40-3.49 | — | iyi |
| Hyperbolic | H100 | $1.49 | — | yeni, agresif |
TR perspektifi (~$1 = ₺33):
- RunPod 4090 community: ₺11-23/saat
- Lambda H100: ₺99/saat
- Lambda 8×H100: ₺790/saat
Lokal 4090 TCO ~₺18/saat vs RunPod 4090 ₺11-23/saat → breakeven sınırda.
Lokal 4090 vs Lambda H100 (~5x daha hızlı 8B FT'de) ₺99/saat: 5x hız avantajı = effective ₺20/saat → eşit.
Karar matrisi:
| Durum | Cookbook önerisi |
|---|---|
| Günde < 4 saat FT iş yükü | Cloud (RunPod 4090 / Lambda H100) |
| Günde 6+ saat FT, 1 yıldan uzun | Lokal 4090 |
| Tek seferlik 70B FT | Cloud 8×H100 (lokal mümkün değil) |
| Üretim API serving | Cloud (managed; vLLM endpoint) |
3. Spot Instance Risk Matematiği#
Spot = sağlayıcı talep arttığında istediği zaman geri alır. Fiyat ~%70 indirimli.
| Sağlayıcı | Spot indirim | Ortalama preempt aralığı | Risk |
|---|---|---|---|
| AWS Spot p4d | %70 | 2-6 saat | yüksek |
| GCP Spot A100 | %65 | 1-4 saat | yüksek |
| RunPod Community | %50 | 4-12 saat | orta |
| Vast.ai | %60-80 | unpredictable | yüksek |
| Lambda | yok | — | n/a |
| CoreWeave | yok (preemptible coming) | — | n/a |
Risk hesabı#
Cookbook'un 8 saatlik 70B FT'si:
- On-demand: 192
- Spot: 56 — eğer preempt yoksa ₺1850 tasarruf
- Eğer ortalama 4 saatte preempt + 30 dk restart overhead:
- 8 saat run / 4 saat session = 2 session
- Her session overhead 30 dk → toplam wall-clock 8 + 1 = 9 saat
- Total spot cost: $63
- Eğer her saatte preempt: 8 + 4 = 12 saat → $84
Cookbook'un kuralı:
- Spike + Reference Lab'lar (1-2 saat) → Spot OK
- Production training 8+ saat → On-demand
- Critical experiments → Reserve (1-yr indirim)
4. Cookbook'un Hybrid Stratejisi#
| Lab fazı | Donanım | Niye |
|---|---|---|
| Lab S1 — Spike (1-4 saat) | Lokal 4090 | hızlı iterate, no signup |
| Lab S2 — Reference (4-24 saat) | Lokal 4090 | düşük marginal cost |
| Lab S3 — 70B Full FT (8-24 saat) | Lambda 8×H100 on-demand | lokal mümkün değil |
| Lab S4 — Multi-seed sweep | Cloud (RunPod Community spot) | parallel runs |
| Inference dev | Lokal 4090 (vLLM) | sıfır cost |
| Production API | Cloud (managed vLLM) | SLA + scale |
Cookbook'un "altın oran"ı:#
Aylık 80-150 saat lokal FT + 10-20 saat cloud (büyük modeller) = en düşük TCO.
TR mühendisi için: lokal 4090 + selektif cloud kullanım, çoğu use-case'i finansal olarak rahatlatır.
python
# === TCO Calculator — cookbook'un ders sonu çıktısı ===class TCOCalculator: def __init__(self): # Lokal RTX 4090 rig (TR fiyatlar, 2026) self.local_rig_cost_tl = 141_000 self.local_amort_years = 3 self.local_electricity_per_kwh_tl = 3.50 self.local_power_watts = 500 # FT load self.tl_per_usd = 33.0 # Cloud fiyatları $/saat self.cloud_prices = { "runpod_4090_community": 0.50, "runpod_4090_secure": 0.99, "lambda_a100_80gb": 1.79, "lambda_h100_sxm": 2.99, "lambda_8h100_sxm": 23.92, "coreweave_8h100_sxm": 24.32, } def local_cost_per_hour_tl(self): amort = self.local_rig_cost_tl / (self.local_amort_years * 365 * 8) # 8 saat/gün varsayım electricity = self.local_power_watts / 1000 * self.local_electricity_per_kwh_tl return amort + electricity def cloud_cost_per_hour_tl(self, sku): return self.cloud_prices[sku] * self.tl_per_usd def breakeven_hours(self, sku): """Lokal rig'in cloud kullanmaktan ucuz olmaya başladığı kümülatif saat.""" cloud_hourly_tl = self.cloud_cost_per_hour_tl(sku) electricity_hourly_tl = self.local_power_watts / 1000 * self.local_electricity_per_kwh_tl # Rig amortismanını saatlik cloud farkıyla geri kazanma if cloud_hourly_tl <= electricity_hourly_tl: return None # cloud her zaman ucuz return self.local_rig_cost_tl / (cloud_hourly_tl - electricity_hourly_tl) # Kullanımcalc = TCOCalculator()print(f"Lokal 4090 TCO/saat: ₺{calc.local_cost_per_hour_tl():.2f}")for sku in ["runpod_4090_community", "lambda_a100_80gb", "lambda_h100_sxm"]: breakeven = calc.breakeven_hours(sku) print(f"{sku}: ₺{calc.cloud_cost_per_hour_tl(sku):.0f}/saat breakeven={breakeven:.0f} saat" if breakeven else f"{sku}: hep ucuz") # Tipik çıktı (TR perspektifi):# Lokal 4090 TCO/saat: ₺17.86# runpod_4090_community: ₺17/saat breakeven=22000 saat (10 yıl)# lambda_a100_80gb: ₺59/saat breakeven=2500 saat (1 yıl)# lambda_h100_sxm: ₺99/saat breakeven=1500 saat (8 ay)cookbook TCO calculator — kendi parametrelerinle çalıştır
🐛 FMD — '4090 aldım, 6 ay sonra %80'i atıl'
Yaygın hata: alımdan önce gerçek iş yükünü tahmin etmemek. 'Belki günde 6 saat kullanırım' tahmini çoğu zaman gerçekte günde 1 saat çıkar. Cookbook'un kuralı: ilk 3 ay cloud kullan, log tut (saat × GPU × workload). 4. ayda elindeki veri ile breakeven hesabı yap, gerçek kullanımına göre rig alıp almama kararını ver. Drill: cloud'da 3 ay deneme dönemi planla, log tut, sonra karar ver.
5. Mini Vaka — 6 Aylık Bir Cookbook İlerleyişi#
Mehmet (cookbook öğrencisi) 6 ayda:
- 12 ders × 4 saat S1 (spike) = 48 saat
- 8 ders × 12 saat S2 (reference) = 96 saat
- 3 ders × 24 saat S3 (production, 70B) = 72 saat (8×H100)
- 5 sweep × 8 saat (S4, multi-seed) = 40 saat
Hesap (lokal 4090 + cloud hybrid):
- 48 + 96 = 144 saat lokal 4090 → ₺2,571
- 72 saat Lambda 8×H100 → 72 × $24 × ₺33 = ₺57,024
- 40 saat RunPod 4090 spot → 40 × $0.40 × ₺33 = ₺528
- Toplam 6 ay: ₺60,123
Alternatif (saf cloud):
- 144 saat Lambda H100 → 144 × ₺99 = ₺14,256
- 72 saat 8×H100 → ₺57,024
- 40 saat 4090 spot → ₺528
- Toplam saf cloud: ₺71,808
Alternatif (saf lokal, 8×H100 yok → 70B FT yok):
- ₺141,000 rig + 144+96 = 240 saat × ₺1.75 elektrik = ₺141,420
- 70B FT yapamadı.
Hybrid (cookbook tavsiyesi): En verimli — hem 70B yapabilir hem küçük iş yüklerini ekonomik koşar.
✅ Teslim — Part I sonu
- Kendi kullanım pattern'ini tahmin et — günde kaç saat FT, hangi model'ler? 2) Yukarıdaki `TCOCalculator`'ı kendi paramlarınla çalıştır, kararını ver. 3) Eğer yeni başlıyorsan: 3 ay cloud kullan, log tut, sonra karar ver. Part I tamamlandı! Part II'ye geçiyoruz: Tokenizer & Data Engineering at Scale.
Sık Sorulan Sorular
Cookbook'un hybrid'i: dev + spike + reference 4090, production 70B Lambda 8×H100 1-2 saat reserve. 70B FT yılda 3-5 kez gerekiyorsa toplam $200-500 yıllık ek — lokal 4090'ın ROI'sini bozmaz.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations