Skip to content

Self-Host Decision Framework: OpenAI API vs Your Own GPU — Cost, Privacy, Performance, Independence

First critical decision in LLM production: API or self-host? This lesson's aim is to ground decision engineering solidly. Cost mathematics (per-token economics, fixed vs variable costs), privacy (KVKK, sectoral restrictions), performance (latency, throughput), independence (lock-in risk). 5 different scenarios for Turkish SaaS: chatbot, RAG, content gen, legal, health. Right decision different in each.

Şükrü Yusuf KAYA
80 min read
Advanced
Self-Host Karar Çerçevesi: OpenAI API vs Kendi GPU'n — Maliyet, Gizlilik, Performans, Bağımsızlık
🤔 İlk Kritik Karar — API mı, Kendi GPU'n mu?
Türkçe asistanını ürettin (Modül 14-15). Şimdi son adım: kullanıcılara nasıl ulaşacak? İki yol var.
Yol A: OpenAI API kullan. Tek satır kod, anında çalışır. Dakikada 100 istekten 100,000 isteğe ölçeklenir. Ama: per-token öder, veri OpenAI'a gider, model değişirse senin behavior değişir.
Yol B: Kendi GPU'nda self-host. Üzerinde tam kontrol. Veriler senin sunucunda kalır. Sabit maliyet. Ama: setup karmaşık, ölçeklendirme senin sorumluluğun, downtime senin başının ağrısı.
Doğru cevap: senaryona bağlı. Bu ders mühendislik gözüyle her boyutu (maliyet, gizlilik, performans, bağımsızlık) sayısal olarak değerlendiriyor. Türkçe SaaS'ler için 5 farklı use-case'te doğru kararı çıkartıyoruz. Mühendislik kararı romantik değildir — matematiksel, hassas, bağlamsaldır. 80 dakika sonra: 'API mı, self-host mu?' sorusuna rakamlarla cevap verecek hâle geleceksin.

Bu Derste Neler Var? (12 Bölüm)#

  1. Kararın 4 Boyutu — Maliyet, Gizlilik, Performans, Bağımsızlık
  2. Per-token Ekonomisi — OpenAI fiyat dönüşümü
  3. Self-host Maliyet Matematiği — GPU saat ücreti, utilization, amortisman
  4. Break-even Analizi — kaç istek/gün'de denk geliyor
  5. Gizlilik Boyutu — KVKK, sektörel kısıt, veri lokasyonu
  6. Latency Boyutu — API ms vs self-host ms
  7. Throughput Boyutu — concurrent users kapasitesi
  8. Vendor Lock-in Riski — model değişirse ne olur?
  9. 5 Türkçe SaaS Senaryosu — gerçek karar matrisi
  10. Hibrit Stratejiler — bazen ikisini birlikte kullan
  11. Karar Ağacı — adım adım seçim
  12. Egzersizler ve Sezgi Soruları

1. Kararın 4 Boyutu#

Karar bir 'API ucuz mu, pahalı mı?' sorusu değil. 4 farklı boyut var, her biri kararı etkiliyor:

1.1 Maliyet Boyutu#

API: değişken, talep başına öde. Düşük talepte ucuz, yüksek talepte pahalı. Self-host: sabit + amortisman. Düşük talepte pahalı (GPU oturuyor), yüksek talepte ucuz.
→ Maliyet için kullanım hacmi belirleyici.

1.2 Gizlilik Boyutu#

API: veri OpenAI/Anthropic/Google sunucusuna gider. Şirketler 'veri training için kullanılmaz' diyor ama:
  • Log'lara giriyor (kanıtlanmamış 'sıfır retention')
  • Sızıntı riski (örn. Mart 2023 ChatGPT veri sızıntısı)
  • Veri Türkiye dışı (KVKK için ek prosedür)
Self-host: veri sunucundan çıkmaz.
→ Gizlilik için sektör + hassasiyet belirleyici.

1.3 Performans Boyutu#

API:
  • Latency: TÜrkiye'den OpenAI ~150-300ms network + processing
  • Throughput: rate limit (tier'a göre) — örn. Tier-1 GPT-4o 500 RPM
  • Reliability: %99.9 SLA (yaklaşık)
Self-host:
  • Latency: kendi sunucun, ~50-100ms
  • Throughput: kendi GPU kapasitesi (sınırsız değil ama dynamic)
  • Reliability: kendi uptime'ından sorumlusun
→ Performans için kullanıcı beklentisi belirleyici.

1.4 Bağımsızlık Boyutu (Lock-in)#

API:
  • OpenAI fiyat artırırsa → sen ödüyorsun.
  • OpenAI deprecation duyurursa → sen migrate ediyorsun.
  • OpenAI Türkiye'ye servis veremiyorsa (sanction risk, AB AI Act sorunu) → sen biten servisle uğraşıyorsun.
  • 'GPT-5 lansman oldu, sen anlam veremiyorsun' — kontrol senin değil.
Self-host:
  • Model senin. Hep aynı. Değiştirmek istersen sen karar verirsin.
  • Türkiye'de sunucu, KVKK uyumu kolay.
  • Bağımsızlık vergisi: setup ve maintenance.
→ Bağımsızlık için stratejik öncelik belirleyici.

1.5 Boyutların ağırlıkları sektöre göre değişir#

  • Eğitim teknolojisi: maliyet > bağımsızlık > gizlilik > performans
  • Sağlık: gizlilik > bağımsızlık > maliyet > performans
  • Finans: gizlilik = performans > bağımsızlık > maliyet
  • E-ticaret chatbot: maliyet > performans > bağımsızlık > gizlilik
  • Hukuki danışmanlık: gizlilik > bağımsızlık > performans > maliyet
Karar tek formülle verilemez. Senin önceliklerini sayısallaştırman gerekir.

2-4. Maliyet Matematiği — Sayısal Karşılaştırma#

2.1 API maliyetini hesaplama#

OpenAI fiyat (2025 ortası):
  • GPT-4o: 2.50/1Minputtoken,2.50 / 1M input token, 10 / 1M output token
  • GPT-4o mini: 0.15/1Minput,0.15 / 1M input, 0.60 / 1M output
  • o1: 15/1Minput,15 / 1M input, 60 / 1M output
Claude (Anthropic):
  • Claude 3.5 Sonnet: 3/1Minput,3 / 1M input, 15 / 1M output
  • Claude 3 Haiku: 0.25/1Minput,0.25 / 1M input, 1.25 / 1M output
Türkçe için tokenization vergisi (Modül 6.9): aynı bilgi İngilizce'den ~1.5-2× token. Yani GPT-4o fiili maliyet Türkçe'de etkin $4-5 / 1M input.

2.2 Per-conversation maliyet hesabı#

Örnek: Türkçe sohbet botu
  • Ortalama soru: 100 token (~70 Türkçe kelime)
  • Sistem mesajı + RAG context: 1500 token
  • Cevap: 300 token
GPT-4o için:
  • Input: 1600 token × 2.50/1M=2.50/1M = 0.004
  • Output: 300 token × 10/1M=10/1M = 0.003
  • Per-conversation: $0.007 (~25 kuruş)
GPT-4o mini için:
  • Per-conversation: $0.00045 (~1.5 kuruş, 15× ucuz)

2.3 Aylık API maliyet projeksiyonu#

10K conversation/gün (TR SaaS orta ölçek):
  • GPT-4o: 10K × 30 × 0.007=0.007 = **2,100/ay**
  • GPT-4o mini: 10K × 30 × 0.00045=0.00045 = **135/ay**
100K conversation/gün (TR SaaS büyük ölçek):
  • GPT-4o: $21,000/ay
  • GPT-4o mini: $1,350/ay

3.1 Self-host maliyet hesabı#

Hardware: 1× NVIDIA H100 80GB.
  • Cloud (spot): $2.50/saat
  • Cloud (on-demand): $4-8/saat
  • On-premise (3 yıl amortisman): 25Ksatınalma/(3yıl×8760saat)= 25K satın alma / (3 yıl × 8760 saat) = ~0.95/saat (+ elektrik + bandwidth + bakım ~$1.50/saat efektif)
Aylık: spot 1,800,ondemand1,800, on-demand 3,600, on-premise efektif $1,100.
Throughput: Llama-3-8B + vLLM + H100:
  • ~3,000 token/saniye (tek GPU, mixed throughput)
  • Aylık: 3,000 × 60 × 60 × 24 × 30 = 7.8B token/ay
Yani 1 H100 ile aylık 7.8B token üretebilirsin.

3.2 Self-host conversation kapasitesi#

Conversation başına ~400 token (input + output ortalama):
  • 7.8B / 400 = 19.5M conversation/ay (teorik max)
  • Pratik (utilization %50-60): ~10M conversation/ay
10K/gün TR SaaS: 300K conversation/ay → utilization %3 → çok düşük → self-host mantıksız. 100K/gün: 3M/ay → utilization %30 → orta. 300K/gün: 9M/ay → utilization %90 → self-host çok mantıklı.

4.1 Break-even analizi#

Hangi noktada self-host API'den ucuzlaşıyor?
GPT-4o ($2,100/ay 10K conversation, lineer artar):
  • 10K/gün: API 2,100,selfhost(1H100)2,100, self-host (1 H100) 1,800 → self-host kıl payı ucuz
  • 50K/gün: API 10,500,selfhost10,500, self-host 1,800 → self-host 5.8× ucuz
  • 100K/gün: API 21,000,selfhost21,000, self-host 1,800 (kapasite yeter) → self-host 11.7× ucuz
GPT-4o mini ile karşılaştırma:
  • 10K/gün: API 135,selfhost135, self-host 1,800 → API 13× ucuz
  • 100K/gün: API 1,350,selfhost1,350, self-host 1,800 → API biraz ucuz
  • 500K/gün: API 6,750,selfhost(2H100)6,750, self-host (2 H100) 3,600 → self-host 2× ucuz
Sonuç: GPT-4o ile karşılaştırırken break-even ~5-10K conversation/gün. GPT-4o mini ile karşılaştırırken ~200-500K conversation/gün.
Türkçe'de fiili break-even daha düşük (tokenization vergisi).

5-7. Gizlilik, Latency, Throughput#

5.1 KVKK ve sektörel kısıtlar#

6698 sayılı KVKK için kritik maddeler:
  • Madde 9: Yurt dışına veri aktarımı için açık rıza veya yeterli koruma gerekir.
  • Madde 12: Veri güvenliği önlemleri zorunlu.
  • Madde 11: Veri sahibinin silme/düzeltme hakları.
API kullanımının zorlukları:
  • OpenAI ABD sunucularında. AB-ABD veri akışı için 'Data Processing Addendum' (DPA) imzalanmalı.
  • Audit log: OpenAI'a ne gitti, ne döndü — sen tüm bunları log etmen gerekir.
  • Silme hakkı: kullanıcı 'tüm verimi silmek istiyorum' dediğinde, OpenAI'da tutulan log'lara müdahale edemezsin.
Sektörel ekstra kısıtlar:
  • Sağlık: HİMSS Türkiye standardı, hasta verisi yurt dışı çıkamaz pratikte.
  • Finans: BDDK düzenlemeleri, bankacılık verisi sınırlı.
  • Hukuk: avukat-müvekkil gizliliği, OpenAI dahil 3. tarafa veri vermek riskli.
  • Eğitim: çocuk verileri (8 yaş altı) için özel kısıtlar.

5.2 Self-host gizlilik avantajı#

  • Veri Türkiye'de sunucuda (örn: AWS Frankfurt veya Türk Telekom Bulut)
  • Audit log tam kontrolünde
  • Silme talebi: log'larını sen yönetiyorsun
  • Compliance documentation kolayca üretilir

6.1 Latency karşılaştırma#

Ortalama latency (Türkiye'den):
API:
  • TTFB (Time To First Byte): 200-500ms
  • Tam cevap (300 token): 1-3 saniye
  • Network gecikmesi: ~100-200ms (Türkiye → ABD round trip)
Self-host (vLLM, H100, Llama-3-8B, AWS Frankfurt):
  • TTFB: 80-150ms
  • Tam cevap (300 token): 0.8-1.5 saniye
  • Network gecikmesi: ~30-50ms (Türkiye → Frankfurt)
Self-host (Türkiye-içi datacenter, on-premise):
  • TTFB: 30-80ms
  • Tam cevap: 0.6-1.2 saniye
  • Network gecikmesi: <20ms
→ Self-host genelde 2-3× daha hızlı, özellikle Türkiye-içi.

7.1 Throughput karşılaştırma#

Concurrent users (eşzamanlı istek):
API:
  • OpenAI Tier-1 GPT-4o: 500 RPM
  • Tier-2 (ödenmiş $50+): 5,000 RPM
  • Tier-5 (enterprise): 30,000 RPM
  • Burst capacity sınırlı (rate limit), ekstra kapasite için 'satın al'
Self-host (vLLM, H100, Llama-3-8B):
  • ~50-100 concurrent users (batched)
  • Burst capacity: 200 user (kısa süre)
  • Daha fazla için: ekstra GPU ekle (lineer ölçeklendirme)

7.2 Önemli not: 'tier upgrade' gecikme#

OpenAI tier upgrade için en az 30 gün kullanım geçmişi ister. Yani aniden ölçeklenmen lazım olursa (örn. viral oldun), API tier upgrade hemen olmuyor. Self-host'ta GPU ekleme dakikalar (cloud) veya günler (on-prem).

8-9. Türkçe SaaS 5 Senaryosunda Doğru Karar#

9.1 Senaryo A: Türkçe E-ticaret Chatbot#

Profil: 5K conversation/gün, kullanıcı sohbeti (genel ürün soruları), gizlilik orta.
Karar: API (GPT-4o mini).
  • 5K × 30 × 0.00045=0.00045 = 67.5/ay
  • Self-host (1 H100): $1,800/ay
  • Maliyet farkı 27× — net API kazanır
  • Gizlilik kısıtı yok (ürün soruları PII içermiyor)

9.2 Senaryo B: Türkçe RAG (Bilgi Tabanı + Sorgulama)#

Profil: 20K conversation/gün, şirket içi dokümanlar (orta düzey hassas), iç kullanım.
Karar: Self-host (Llama-3-8B + Modül 15 capstone DPO).
  • API: ~$1,800-3,000/ay (GPT-4o mini ile)
  • Self-host: $1,800/ay
  • Maliyet ben benzer
  • Gizlilik avantajı belirleyici → şirket içi dokümanlar OpenAI'a gitmiyor
  • Kontrol: model davranışını şirket kültürüne göre fine-tune edebilirsin

9.3 Senaryo C: Türkçe İçerik Üretimi (Blog, Sosyal Medya)#

Profil: 1K uzun cevap/gün, yaratıcılık gerekli, gizlilik düşük.
Karar: API (Claude 3.5 Sonnet).
  • Claude yaratıcı yazma çok güçlü
  • Per-conversation $0.03-0.05 (uzun output)
  • 1K × 30 × 0.04=0.04 = 1,200/ay
  • Self-host kalitesi yetersiz (yaratıcı writing API en üst seviyede)
  • Gizlilik düşük → veri sızıntısı kabul edilebilir

9.4 Senaryo D: Türkçe Hukuki Danışmanlık#

Profil: 500 conversation/gün, müvekkil bilgileri (çok hassas), avukat-müvekkil gizliliği.
Karar: Self-host (zorunlu).
  • API kullanmak avukat-müvekkil gizliliği ihlali (3. tarafa veri)
  • Türkiye Barolar Birliği müvekkil verisinin yurt dışı çıkmasını sınırlar
  • Self-host: $1,800/ay sabit. 500 × 30 = 15K conversation/ay, kapasitenin altında, ama gizlilik kazanır
  • Belki fine-tune ile Türk hukuk corpus'una optimize

9.5 Senaryo E: Türkçe Sağlık Asistanı (Pre-clinical)#

Profil: 2K conversation/gün, hasta semptom sorgulamaları, KVKK + HIPAA-tarzı kısıtlar.
Karar: Self-host + ek özen.
  • KVKK sağlık verisi yurt dışı çıkamaz
  • HİMSS Türkiye standartları self-host'a yönlendiriyor
  • 2K × 30 = 60K conversation/ay, 1 H100 yeter
  • Maliyet API'den ucuz olsa bile, gizlilik tek başına self-host'u zorunlu kılıyor
  • Tıbbi disclaimer + uzman gözetim katmanı şart

8.1 Hibrit Strateji — En Akıllı Yaklaşım#

Çoğu olgun TR SaaS hibrit kullanıyor:
Tier 1 (basit, ucuz): GPT-4o mini API — sık sohbet, basit soru-cevap. Tier 2 (kompleks): Self-host Llama-3 → karmaşık queries. Tier 3 (hassas): Self-host fine-tuned model → KVKK hassas konular.
Router: kullanıcı sorusunu bir küçük classifier (8B parametreli model) önce sınıflıyor:
class DemoRouter: def classify(self, query): # Hızlı sınıflama (10ms) if is_simple_chat(query): return 'gpt4o-mini' # API elif is_complex_question(query): return 'llama3-self-host' elif has_sensitive_data(query): return 'llama3-finetuned-self-host'
Maliyet ve gizliliği optimize eder.

11-12. Karar Ağacı + Egzersizler#

11.1 Adım adım karar ağacı#

[BAŞLA] | v [Q1: Hassas veri mi işliyorsun?] Evet (KVKK/sağlık/hukuk/finans) → Self-host (zorunlu, lokasyon Türkiye) Hayır → Q2'ye geç | v [Q2: Günlük conversation hacmin?] <5K → API (ekonomik) 5K-50K → Q3'e geç >50K → Self-host (maliyet kazanır) | v [Q3: Türkçe kalite kritik mi?] Evet (yaratıcı, hukuki, eğitim) → API (Claude/GPT-4o) Hayır (genel sohbet, basit) → Self-host (Llama-3-8B yeter) | v [Q4: Model davranışı kontrolü gerekli mi?] Evet (özel persona, sektör-spesifik) → Self-host (fine-tune zaten yaptın) Hayır → API | v [Q5: Hibrit imkanı var mı?] Evet → İki tier kur (basit/komplekx) Hayır → Tek seçim

11.2 Pratik öneri (çoğu TR startup için)#

  • 0-3 ay (MVP): API kullan. Hızla başla, ürün-pazar uyumunu test et.
  • 3-6 ay (büyüme): hacim 10K/gün'ü geçince hibrit kur. API + self-host.
  • 6-12 ay (olgunlaşma): 50K/gün geçince ağırlıklı self-host. API sadece edge case'ler.

12.1 Egzersizler#

E1. Türkçe e-ticaret chatbot, 30K conversation/gün, ürün arama soruları. API vs self-host kararı için 4 boyutu (maliyet, gizlilik, performans, bağımsızlık) sayısallaştır ve karar ver.
E2. Self-host break-even noktasını farklı modeller için hesapla: Llama-3-8B vs Llama-3-70B vs Llama-3-405B. Karşılaştırılan API: GPT-4o.
E3. Avrupa Birliği AI Act 2024 uyumu için 'high-risk AI' (sağlık, eğitim) kategorisindeki bir Türkçe LLM sistemi. API mı self-host mu? Hukuki gerekçelerle.
E4. Hibrit strateji: 100K conversation/gün TR SaaS. %70 basit chat, %25 RAG, %5 hassas. Her tier için API mı self-host mu? Total maliyet hesabı.
E5. Vendor lock-in senaryosu: GPT-4o üzerinde 6 ay önemli fine-tune yaptın (system prompts, few-shot examples optimize edildi). OpenAI Pricing 3× artırır. Self-host'a geçmek için kaç ay gerekir, ne yatırım?
E6. Türkçe sağlık asistanı: 2K conversation/gün. KVKK + tıbbi disclaimer gereksinimleri. Self-host setup detayını yaz — hangi GPU, hangi DC lokasyonu, hangi compliance dokümanlar.
E7. Latency hesabı: kullanıcı 'TTFB <500ms' istiyor. API (Frankfurt, OpenAI) vs Self-host (Türkiye DC) farkını çalış. Hangisi gereksinimi karşılar?
E8. Self-host'un 'gizli maliyetleri' nedir? GPU saat ücreti dışında hangi giderler var? Ay sonunda gerçek maliyet GPU + ne kadar?
E9. Türkçe SaaS bir startup. İlk 3 ay MVP. API mı self-host mu başla? Hangi gerekçe?
E10. API kullanırken 'fallback strategy' nasıl tasarlanır? OpenAI down olduğunda ne yapar sistemın?
✅ Ders 16.1 Özeti — Self-Host Karar Çerçevesi
Self-host vs API kararı bir 'ucuz vs pahalı' sorusu değil — 4 boyutlu mühendislik kararı: maliyet, gizlilik, performans, bağımsızlık. Türkçe için maliyet break-even API hacim (GPT-4o için ~5-10K conv/gün, GPT-4o mini için ~200-500K). 5 senaryoda doğru karar farklı: e-ticaret (API), RAG (self-host), içerik üretim (API), hukuki (self-host zorunlu), sağlık (self-host zorunlu). Hibrit strateji çoğu olgun TR SaaS'in seçimi. MVP aşaması API, ölçek büyürse self-host. TCO 2-3× GPU saat ücreti — gizli maliyetleri hesaba kat. Sonraki ders: kararını verdin, şimdi self-host nasıl kurulur — vLLM, paged attention, production-grade serving.

Sonraki Ders: vLLM Production Setup#

Ders 16.2'de karar verildi, şimdi inşaat. vLLM (UC Berkeley + Anyscale), modern LLM serving'in fiili standardı. Paged attention, continuous batching, OpenAI-compatible API. Kubernetes deployment, monitoring, autoscaling, SLA garantileri. Hardware (H100 vs A100 vs RTX 4090) seçimi. Türkçe Llama-3 production deployment'ı baştan sona.

Frequently Asked Questions

Important question. API prices truly dropped 50-100× in 2024-2025. This **shifted break-even point upward** — i.e. volume where self-host wins its advantage increased. Comparison with GPT-4o mini ($0.15/1M input + $0.60/1M output): - Self-host break-even ~200-500K conversations/day - Hard volume for most Turkish SaaS to reach **But**: cost is still **one of four dimensions** of decision. Other dimensions (privacy, performance, independence) still favor self-host: - Health, legal, finance: privacy wins - Low latency in Turkey: performance wins - EU AI Act 'high-risk' category: compliance wins - Lock-in concern: independence wins **Conclusion**: cost dimension weakened, but self-host still valuable on other three dimensions. Also: API prices may rise in future (if competition decreases, regulation comes).

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content

Connected pillar topics

Pillar topics this article maps to