İçeriğe geç

Cost Engineering: 4090 Lokal mi Cloud H100 mu? — Breakeven, Spot ve TCO Matematiği

Her FT mühendisinin sorduğu sessiz soru: 'Bunu lokal 4090'da mı yapsam, cloud'a mı atayım, hangisi ucuz?' Cookbook'un kesin cevap matematiği: RTX 4090 amortismanı (₺), elektrik (₺3.5/kWh × 450W), bulut saat fiyat tablosu (Lambda/RunPod/CoreWeave), spot risk hesabı, breakeven süresi, hybrid stratejisi (4090 dev + cloud production).

Şükrü Yusuf KAYA
28 dakikalık okuma
Orta
Cost Engineering: 4090 Lokal mi Cloud H100 mu? — Breakeven, Spot ve TCO Matematiği
🎯 Karar netliği
Bu ders bittiğinde her FT iş yükü için kâğıt-kalem ile lokal vs cloud cevabı verebileceksin. RTX 4090 alır mıyım? Lambda 1-yr reserve mı? Spot instance bütçemde mi? — Hepsi sayıyla.

1. RTX 4090 Amortismanı (TR perspektif)#

KalemTL (2026)$ ekiv
RTX 4090 (FE / ROG / Suprim)₺75,000$2,250
Uygun PSU (1000W 80+ Plat)₺7,000$210
Soğutma (case, fan, hava)₺5,000$150
Ek RAM (64GB DDR5)₺8,000$240
NVMe Gen4 2TB₺6,000$180
Workstation (kalan parçalar)₺40,000$1,200
Toplam dev rig₺141,000~$4,200

Elektrik#

  • Full FT load: ~500W (4090 450W + sistem)
  • Türkiye ortalama tarife (2026, kademe 2): ₺3.50/kWh
  • 1 saat full load: 0.5 kWh × ₺3.50 = ₺1.75/saat

3-yıllık amortisman#

  • ₺141,000 / 3 yıl / 365 gün = ₺129/gün
  • Günde 8 saat aktif kullanım: ₺129 / 8 = ₺16/saat amortisman
    • elektrik ₺1.75 = ~₺18/saat tam TCO

2. Cloud GPU Saatlik Tablosu (Q1 2026)#

SağlayıcıGPU$/saat (on-demand)$/saat (1-yr)Türkiye'den erişim
RunPod CommunityRTX 4090$0.34-0.69iyi (EU node'lar)
RunPod SecureRTX 4090$0.99iyi
Vast.aiRTX 4090$0.20-0.50medium (spot)
LambdaA100 80GB$1.79$1.20iyi
LambdaH100 SXM 80GB$2.99$1.99iyi
Lambda 8×H1008×H100 SXM$23.92$15.92iyi
CoreWeave 8×H1008×H100 SXM$24.32$18.40iyi
AWS p5.48xlarge8×H100$98.32$55.62iyi (EU regions)
Together AIH100 cluster$2.40-3.49iyi
HyperbolicH100$1.49yeni, agresif
TR perspektifi (~$1 = ₺33):
  • RunPod 4090 community: ₺11-23/saat
  • Lambda H100: ₺99/saat
  • Lambda 8×H100: ₺790/saat
Lokal 4090 TCO ~₺18/saat vs RunPod 4090 ₺11-23/saat → breakeven sınırda. Lokal 4090 vs Lambda H100 (~5x daha hızlı 8B FT'de) ₺99/saat: 5x hız avantajı = effective ₺20/saat → eşit.
Karar matrisi:
DurumCookbook önerisi
Günde < 4 saat FT iş yüküCloud (RunPod 4090 / Lambda H100)
Günde 6+ saat FT, 1 yıldan uzunLokal 4090
Tek seferlik 70B FTCloud 8×H100 (lokal mümkün değil)
Üretim API servingCloud (managed; vLLM endpoint)

3. Spot Instance Risk Matematiği#

Spot = sağlayıcı talep arttığında istediği zaman geri alır. Fiyat ~%70 indirimli.
SağlayıcıSpot indirimOrtalama preempt aralığıRisk
AWS Spot p4d%702-6 saatyüksek
GCP Spot A100%651-4 saatyüksek
RunPod Community%504-12 saatorta
Vast.ai%60-80unpredictableyüksek
Lambdayokn/a
CoreWeaveyok (preemptible coming)n/a

Risk hesabı#

Cookbook'un 8 saatlik 70B FT'si:
  • On-demand: 24/saat×8=24/saat × 8 = 192
  • Spot: 7/saat×8=7/saat × 8 = 56 — eğer preempt yoksa ₺1850 tasarruf
  • Eğer ortalama 4 saatte preempt + 30 dk restart overhead:
    • 8 saat run / 4 saat session = 2 session
    • Her session overhead 30 dk → toplam wall-clock 8 + 1 = 9 saat
    • Total spot cost: $63
  • Eğer her saatte preempt: 8 + 4 = 12 saat → $84
Cookbook'un kuralı:
  • Spike + Reference Lab'lar (1-2 saat) → Spot OK
  • Production training 8+ saat → On-demand
  • Critical experiments → Reserve (1-yr indirim)

4. Cookbook'un Hybrid Stratejisi#

Lab fazıDonanımNiye
Lab S1 — Spike (1-4 saat)Lokal 4090hızlı iterate, no signup
Lab S2 — Reference (4-24 saat)Lokal 4090düşük marginal cost
Lab S3 — 70B Full FT (8-24 saat)Lambda 8×H100 on-demandlokal mümkün değil
Lab S4 — Multi-seed sweepCloud (RunPod Community spot)parallel runs
Inference devLokal 4090 (vLLM)sıfır cost
Production APICloud (managed vLLM)SLA + scale

Cookbook'un "altın oran"ı:#

Aylık 80-150 saat lokal FT + 10-20 saat cloud (büyük modeller) = en düşük TCO.
TR mühendisi için: lokal 4090 + selektif cloud kullanım, çoğu use-case'i finansal olarak rahatlatır.
python
# === TCO Calculator — cookbook'un ders sonu çıktısı ===
class TCOCalculator:
def __init__(self):
# Lokal RTX 4090 rig (TR fiyatlar, 2026)
self.local_rig_cost_tl = 141_000
self.local_amort_years = 3
self.local_electricity_per_kwh_tl = 3.50
self.local_power_watts = 500 # FT load
self.tl_per_usd = 33.0
 
# Cloud fiyatları $/saat
self.cloud_prices = {
"runpod_4090_community": 0.50,
"runpod_4090_secure": 0.99,
"lambda_a100_80gb": 1.79,
"lambda_h100_sxm": 2.99,
"lambda_8h100_sxm": 23.92,
"coreweave_8h100_sxm": 24.32,
}
 
def local_cost_per_hour_tl(self):
amort = self.local_rig_cost_tl / (self.local_amort_years * 365 * 8) # 8 saat/gün varsayım
electricity = self.local_power_watts / 1000 * self.local_electricity_per_kwh_tl
return amort + electricity
 
def cloud_cost_per_hour_tl(self, sku):
return self.cloud_prices[sku] * self.tl_per_usd
 
def breakeven_hours(self, sku):
"""Lokal rig'in cloud kullanmaktan ucuz olmaya başladığı kümülatif saat."""
cloud_hourly_tl = self.cloud_cost_per_hour_tl(sku)
electricity_hourly_tl = self.local_power_watts / 1000 * self.local_electricity_per_kwh_tl
# Rig amortismanını saatlik cloud farkıyla geri kazanma
if cloud_hourly_tl <= electricity_hourly_tl:
return None # cloud her zaman ucuz
return self.local_rig_cost_tl / (cloud_hourly_tl - electricity_hourly_tl)
 
# Kullanım
calc = TCOCalculator()
print(f"Lokal 4090 TCO/saat: ₺{calc.local_cost_per_hour_tl():.2f}")
for sku in ["runpod_4090_community", "lambda_a100_80gb", "lambda_h100_sxm"]:
breakeven = calc.breakeven_hours(sku)
print(f"{sku}: ₺{calc.cloud_cost_per_hour_tl(sku):.0f}/saat breakeven={breakeven:.0f} saat" if breakeven else f"{sku}: hep ucuz")
 
# Tipik çıktı (TR perspektifi):
# Lokal 4090 TCO/saat: ₺17.86
# runpod_4090_community: ₺17/saat breakeven=22000 saat (10 yıl)
# lambda_a100_80gb: ₺59/saat breakeven=2500 saat (1 yıl)
# lambda_h100_sxm: ₺99/saat breakeven=1500 saat (8 ay)
cookbook TCO calculator — kendi parametrelerinle çalıştır
🐛 FMD — '4090 aldım, 6 ay sonra %80'i atıl'
Yaygın hata: alımdan önce gerçek iş yükünü tahmin etmemek. 'Belki günde 6 saat kullanırım' tahmini çoğu zaman gerçekte günde 1 saat çıkar. Cookbook'un kuralı: ilk 3 ay cloud kullan, log tut (saat × GPU × workload). 4. ayda elindeki veri ile breakeven hesabı yap, gerçek kullanımına göre rig alıp almama kararını ver. Drill: cloud'da 3 ay deneme dönemi planla, log tut, sonra karar ver.

5. Mini Vaka — 6 Aylık Bir Cookbook İlerleyişi#

Mehmet (cookbook öğrencisi) 6 ayda:
  • 12 ders × 4 saat S1 (spike) = 48 saat
  • 8 ders × 12 saat S2 (reference) = 96 saat
  • 3 ders × 24 saat S3 (production, 70B) = 72 saat (8×H100)
  • 5 sweep × 8 saat (S4, multi-seed) = 40 saat
Hesap (lokal 4090 + cloud hybrid):
  • 48 + 96 = 144 saat lokal 4090 → ₺2,571
  • 72 saat Lambda 8×H100 → 72 × $24 × ₺33 = ₺57,024
  • 40 saat RunPod 4090 spot → 40 × $0.40 × ₺33 = ₺528
  • Toplam 6 ay: ₺60,123
Alternatif (saf cloud):
  • 144 saat Lambda H100 → 144 × ₺99 = ₺14,256
  • 72 saat 8×H100 → ₺57,024
  • 40 saat 4090 spot → ₺528
  • Toplam saf cloud: ₺71,808
Alternatif (saf lokal, 8×H100 yok → 70B FT yok):
  • ₺141,000 rig + 144+96 = 240 saat × ₺1.75 elektrik = ₺141,420
  • 70B FT yapamadı.
Hybrid (cookbook tavsiyesi): En verimli — hem 70B yapabilir hem küçük iş yüklerini ekonomik koşar.
✅ Teslim — Part I sonu
  1. Kendi kullanım pattern'ini tahmin et — günde kaç saat FT, hangi model'ler? 2) Yukarıdaki `TCOCalculator`'ı kendi paramlarınla çalıştır, kararını ver. 3) Eğer yeni başlıyorsan: 3 ay cloud kullan, log tut, sonra karar ver. Part I tamamlandı! Part II'ye geçiyoruz: Tokenizer & Data Engineering at Scale.

Sık Sorulan Sorular

Cookbook'un hybrid'i: dev + spike + reference 4090, production 70B Lambda 8×H100 1-2 saat reserve. 70B FT yılda 3-5 kez gerekiyorsa toplam $200-500 yıllık ek — lokal 4090'ın ROI'sini bozmaz.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler