Self-Host Karar Çerçevesi: OpenAI API vs Kendi GPU'n — Maliyet, Gizlilik, Performans, Bağımsızlık
LLM üretimine geçişin ilk kritik kararı: API mı, self-host mu? Bu dersin hedefi karar mühendisliğini sağlam temellendirmek. Maliyet matematiği (per-token ekonomisi, fixed vs variable costs), gizlilik (KVKK, sektörel kısıtlar), performans (latency, throughput), bağımsızlık (lock-in riski). Türkçe SaaS için 5 farklı senaryo: chatbot, RAG, content gen, hukuki, sağlık. Her birinde doğru karar farklı.
Şükrü Yusuf KAYA
80 dakikalık okuma
İleri🤔 İlk Kritik Karar — API mı, Kendi GPU'n mu?
Türkçe asistanını ürettin (Modül 14-15). Şimdi son adım: kullanıcılara nasıl ulaşacak? İki yol var.
Yol A: OpenAI API kullan. Tek satır kod, anında çalışır. Dakikada 100 istekten 100,000 isteğe ölçeklenir. Ama: per-token öder, veri OpenAI'a gider, model değişirse senin behavior değişir.
Yol B: Kendi GPU'nda self-host. Üzerinde tam kontrol. Veriler senin sunucunda kalır. Sabit maliyet. Ama: setup karmaşık, ölçeklendirme senin sorumluluğun, downtime senin başının ağrısı.
Doğru cevap: senaryona bağlı. Bu ders mühendislik gözüyle her boyutu (maliyet, gizlilik, performans, bağımsızlık) sayısal olarak değerlendiriyor. Türkçe SaaS'ler için 5 farklı use-case'te doğru kararı çıkartıyoruz. Mühendislik kararı romantik değildir — matematiksel, hassas, bağlamsaldır. 80 dakika sonra: 'API mı, self-host mu?' sorusuna rakamlarla cevap verecek hâle geleceksin.
Bu Derste Neler Var? (12 Bölüm)#
- Kararın 4 Boyutu — Maliyet, Gizlilik, Performans, Bağımsızlık
- Per-token Ekonomisi — OpenAI fiyat dönüşümü
- Self-host Maliyet Matematiği — GPU saat ücreti, utilization, amortisman
- Break-even Analizi — kaç istek/gün'de denk geliyor
- Gizlilik Boyutu — KVKK, sektörel kısıt, veri lokasyonu
- Latency Boyutu — API ms vs self-host ms
- Throughput Boyutu — concurrent users kapasitesi
- Vendor Lock-in Riski — model değişirse ne olur?
- 5 Türkçe SaaS Senaryosu — gerçek karar matrisi
- Hibrit Stratejiler — bazen ikisini birlikte kullan
- Karar Ağacı — adım adım seçim
- Egzersizler ve Sezgi Soruları
1. Kararın 4 Boyutu#
Karar bir 'API ucuz mu, pahalı mı?' sorusu değil. 4 farklı boyut var, her biri kararı etkiliyor:
1.1 Maliyet Boyutu#
API: değişken, talep başına öde. Düşük talepte ucuz, yüksek talepte pahalı.
Self-host: sabit + amortisman. Düşük talepte pahalı (GPU oturuyor), yüksek talepte ucuz.
→ Maliyet için kullanım hacmi belirleyici.
1.2 Gizlilik Boyutu#
API: veri OpenAI/Anthropic/Google sunucusuna gider. Şirketler 'veri training için kullanılmaz' diyor ama:
- Log'lara giriyor (kanıtlanmamış 'sıfır retention')
- Sızıntı riski (örn. Mart 2023 ChatGPT veri sızıntısı)
- Veri Türkiye dışı (KVKK için ek prosedür)
Self-host: veri sunucundan çıkmaz.
→ Gizlilik için sektör + hassasiyet belirleyici.
1.3 Performans Boyutu#
API:
- Latency: TÜrkiye'den OpenAI ~150-300ms network + processing
- Throughput: rate limit (tier'a göre) — örn. Tier-1 GPT-4o 500 RPM
- Reliability: %99.9 SLA (yaklaşık)
Self-host:
- Latency: kendi sunucun, ~50-100ms
- Throughput: kendi GPU kapasitesi (sınırsız değil ama dynamic)
- Reliability: kendi uptime'ından sorumlusun
→ Performans için kullanıcı beklentisi belirleyici.
1.4 Bağımsızlık Boyutu (Lock-in)#
API:
- OpenAI fiyat artırırsa → sen ödüyorsun.
- OpenAI deprecation duyurursa → sen migrate ediyorsun.
- OpenAI Türkiye'ye servis veremiyorsa (sanction risk, AB AI Act sorunu) → sen biten servisle uğraşıyorsun.
- 'GPT-5 lansman oldu, sen anlam veremiyorsun' — kontrol senin değil.
Self-host:
- Model senin. Hep aynı. Değiştirmek istersen sen karar verirsin.
- Türkiye'de sunucu, KVKK uyumu kolay.
- Bağımsızlık vergisi: setup ve maintenance.
→ Bağımsızlık için stratejik öncelik belirleyici.
1.5 Boyutların ağırlıkları sektöre göre değişir#
- Eğitim teknolojisi: maliyet > bağımsızlık > gizlilik > performans
- Sağlık: gizlilik > bağımsızlık > maliyet > performans
- Finans: gizlilik = performans > bağımsızlık > maliyet
- E-ticaret chatbot: maliyet > performans > bağımsızlık > gizlilik
- Hukuki danışmanlık: gizlilik > bağımsızlık > performans > maliyet
Karar tek formülle verilemez. Senin önceliklerini sayısallaştırman gerekir.
2-4. Maliyet Matematiği — Sayısal Karşılaştırma#
2.1 API maliyetini hesaplama#
OpenAI fiyat (2025 ortası):
- GPT-4o: 10 / 1M output token
- GPT-4o mini: 0.60 / 1M output
- o1: 60 / 1M output
Claude (Anthropic):
- Claude 3.5 Sonnet: 15 / 1M output
- Claude 3 Haiku: 1.25 / 1M output
Türkçe için tokenization vergisi (Modül 6.9): aynı bilgi İngilizce'den ~1.5-2× token. Yani GPT-4o fiili maliyet Türkçe'de etkin $4-5 / 1M input.
2.2 Per-conversation maliyet hesabı#
Örnek: Türkçe sohbet botu
- Ortalama soru: 100 token (~70 Türkçe kelime)
- Sistem mesajı + RAG context: 1500 token
- Cevap: 300 token
GPT-4o için:
- Input: 1600 token × 0.004
- Output: 300 token × 0.003
- Per-conversation: $0.007 (~25 kuruş)
GPT-4o mini için:
- Per-conversation: $0.00045 (~1.5 kuruş, 15× ucuz)
2.3 Aylık API maliyet projeksiyonu#
10K conversation/gün (TR SaaS orta ölçek):
- GPT-4o: 10K × 30 × 2,100/ay**
- GPT-4o mini: 10K × 30 × 135/ay**
100K conversation/gün (TR SaaS büyük ölçek):
- GPT-4o: $21,000/ay
- GPT-4o mini: $1,350/ay
3.1 Self-host maliyet hesabı#
Hardware: 1× NVIDIA H100 80GB.
- Cloud (spot): $2.50/saat
- Cloud (on-demand): $4-8/saat
- On-premise (3 yıl amortisman): 0.95/saat (+ elektrik + bandwidth + bakım ~$1.50/saat efektif)
Aylık: spot 3,600, on-premise efektif $1,100.
Throughput: Llama-3-8B + vLLM + H100:
- ~3,000 token/saniye (tek GPU, mixed throughput)
- Aylık: 3,000 × 60 × 60 × 24 × 30 = 7.8B token/ay
Yani 1 H100 ile aylık 7.8B token üretebilirsin.
3.2 Self-host conversation kapasitesi#
Conversation başına ~400 token (input + output ortalama):
- 7.8B / 400 = 19.5M conversation/ay (teorik max)
- Pratik (utilization %50-60): ~10M conversation/ay
10K/gün TR SaaS: 300K conversation/ay → utilization %3 → çok düşük → self-host mantıksız.
100K/gün: 3M/ay → utilization %30 → orta.
300K/gün: 9M/ay → utilization %90 → self-host çok mantıklı.
4.1 Break-even analizi#
Hangi noktada self-host API'den ucuzlaşıyor?
GPT-4o ($2,100/ay 10K conversation, lineer artar):
- 10K/gün: API 1,800 → self-host kıl payı ucuz
- 50K/gün: API 1,800 → self-host 5.8× ucuz
- 100K/gün: API 1,800 (kapasite yeter) → self-host 11.7× ucuz
GPT-4o mini ile karşılaştırma:
- 10K/gün: API 1,800 → API 13× ucuz
- 100K/gün: API 1,800 → API biraz ucuz
- 500K/gün: API 3,600 → self-host 2× ucuz
Sonuç: GPT-4o ile karşılaştırırken break-even ~5-10K conversation/gün. GPT-4o mini ile karşılaştırırken ~200-500K conversation/gün.
Türkçe'de fiili break-even daha düşük (tokenization vergisi).
5-7. Gizlilik, Latency, Throughput#
5.1 KVKK ve sektörel kısıtlar#
6698 sayılı KVKK için kritik maddeler:
- Madde 9: Yurt dışına veri aktarımı için açık rıza veya yeterli koruma gerekir.
- Madde 12: Veri güvenliği önlemleri zorunlu.
- Madde 11: Veri sahibinin silme/düzeltme hakları.
API kullanımının zorlukları:
- OpenAI ABD sunucularında. AB-ABD veri akışı için 'Data Processing Addendum' (DPA) imzalanmalı.
- Audit log: OpenAI'a ne gitti, ne döndü — sen tüm bunları log etmen gerekir.
- Silme hakkı: kullanıcı 'tüm verimi silmek istiyorum' dediğinde, OpenAI'da tutulan log'lara müdahale edemezsin.
Sektörel ekstra kısıtlar:
- Sağlık: HİMSS Türkiye standardı, hasta verisi yurt dışı çıkamaz pratikte.
- Finans: BDDK düzenlemeleri, bankacılık verisi sınırlı.
- Hukuk: avukat-müvekkil gizliliği, OpenAI dahil 3. tarafa veri vermek riskli.
- Eğitim: çocuk verileri (8 yaş altı) için özel kısıtlar.
5.2 Self-host gizlilik avantajı#
- Veri Türkiye'de sunucuda (örn: AWS Frankfurt veya Türk Telekom Bulut)
- Audit log tam kontrolünde
- Silme talebi: log'larını sen yönetiyorsun
- Compliance documentation kolayca üretilir
6.1 Latency karşılaştırma#
Ortalama latency (Türkiye'den):
API:
- TTFB (Time To First Byte): 200-500ms
- Tam cevap (300 token): 1-3 saniye
- Network gecikmesi: ~100-200ms (Türkiye → ABD round trip)
Self-host (vLLM, H100, Llama-3-8B, AWS Frankfurt):
- TTFB: 80-150ms
- Tam cevap (300 token): 0.8-1.5 saniye
- Network gecikmesi: ~30-50ms (Türkiye → Frankfurt)
Self-host (Türkiye-içi datacenter, on-premise):
- TTFB: 30-80ms
- Tam cevap: 0.6-1.2 saniye
- Network gecikmesi: <20ms
→ Self-host genelde 2-3× daha hızlı, özellikle Türkiye-içi.
7.1 Throughput karşılaştırma#
Concurrent users (eşzamanlı istek):
API:
- OpenAI Tier-1 GPT-4o: 500 RPM
- Tier-2 (ödenmiş $50+): 5,000 RPM
- Tier-5 (enterprise): 30,000 RPM
- Burst capacity sınırlı (rate limit), ekstra kapasite için 'satın al'
Self-host (vLLM, H100, Llama-3-8B):
- ~50-100 concurrent users (batched)
- Burst capacity: 200 user (kısa süre)
- Daha fazla için: ekstra GPU ekle (lineer ölçeklendirme)
7.2 Önemli not: 'tier upgrade' gecikme#
OpenAI tier upgrade için en az 30 gün kullanım geçmişi ister. Yani aniden ölçeklenmen lazım olursa (örn. viral oldun), API tier upgrade hemen olmuyor. Self-host'ta GPU ekleme dakikalar (cloud) veya günler (on-prem).
8-9. Türkçe SaaS 5 Senaryosunda Doğru Karar#
9.1 Senaryo A: Türkçe E-ticaret Chatbot#
Profil: 5K conversation/gün, kullanıcı sohbeti (genel ürün soruları), gizlilik orta.
Karar: API (GPT-4o mini).
- 5K × 30 × 67.5/ay
- Self-host (1 H100): $1,800/ay
- Maliyet farkı 27× — net API kazanır
- Gizlilik kısıtı yok (ürün soruları PII içermiyor)
9.2 Senaryo B: Türkçe RAG (Bilgi Tabanı + Sorgulama)#
Profil: 20K conversation/gün, şirket içi dokümanlar (orta düzey hassas), iç kullanım.
Karar: Self-host (Llama-3-8B + Modül 15 capstone DPO).
- API: ~$1,800-3,000/ay (GPT-4o mini ile)
- Self-host: $1,800/ay
- Maliyet ben benzer
- Gizlilik avantajı belirleyici → şirket içi dokümanlar OpenAI'a gitmiyor
- Kontrol: model davranışını şirket kültürüne göre fine-tune edebilirsin
9.3 Senaryo C: Türkçe İçerik Üretimi (Blog, Sosyal Medya)#
Profil: 1K uzun cevap/gün, yaratıcılık gerekli, gizlilik düşük.
Karar: API (Claude 3.5 Sonnet).
- Claude yaratıcı yazma çok güçlü
- Per-conversation $0.03-0.05 (uzun output)
- 1K × 30 × 1,200/ay
- Self-host kalitesi yetersiz (yaratıcı writing API en üst seviyede)
- Gizlilik düşük → veri sızıntısı kabul edilebilir
9.4 Senaryo D: Türkçe Hukuki Danışmanlık#
Profil: 500 conversation/gün, müvekkil bilgileri (çok hassas), avukat-müvekkil gizliliği.
Karar: Self-host (zorunlu).
- API kullanmak avukat-müvekkil gizliliği ihlali (3. tarafa veri)
- Türkiye Barolar Birliği müvekkil verisinin yurt dışı çıkmasını sınırlar
- Self-host: $1,800/ay sabit. 500 × 30 = 15K conversation/ay, kapasitenin altında, ama gizlilik kazanır
- Belki fine-tune ile Türk hukuk corpus'una optimize
9.5 Senaryo E: Türkçe Sağlık Asistanı (Pre-clinical)#
Profil: 2K conversation/gün, hasta semptom sorgulamaları, KVKK + HIPAA-tarzı kısıtlar.
Karar: Self-host + ek özen.
- KVKK sağlık verisi yurt dışı çıkamaz
- HİMSS Türkiye standartları self-host'a yönlendiriyor
- 2K × 30 = 60K conversation/ay, 1 H100 yeter
- Maliyet API'den ucuz olsa bile, gizlilik tek başına self-host'u zorunlu kılıyor
- Tıbbi disclaimer + uzman gözetim katmanı şart
8.1 Hibrit Strateji — En Akıllı Yaklaşım#
Çoğu olgun TR SaaS hibrit kullanıyor:
Tier 1 (basit, ucuz): GPT-4o mini API — sık sohbet, basit soru-cevap.
Tier 2 (kompleks): Self-host Llama-3 → karmaşık queries.
Tier 3 (hassas): Self-host fine-tuned model → KVKK hassas konular.
Router: kullanıcı sorusunu bir küçük classifier (8B parametreli model) önce sınıflıyor:
class DemoRouter: def classify(self, query): # Hızlı sınıflama (10ms) if is_simple_chat(query): return 'gpt4o-mini' # API elif is_complex_question(query): return 'llama3-self-host' elif has_sensitive_data(query): return 'llama3-finetuned-self-host'
Maliyet ve gizliliği optimize eder.
11-12. Karar Ağacı + Egzersizler#
11.1 Adım adım karar ağacı#
[BAŞLA] | v [Q1: Hassas veri mi işliyorsun?] Evet (KVKK/sağlık/hukuk/finans) → Self-host (zorunlu, lokasyon Türkiye) Hayır → Q2'ye geç | v [Q2: Günlük conversation hacmin?] <5K → API (ekonomik) 5K-50K → Q3'e geç >50K → Self-host (maliyet kazanır) | v [Q3: Türkçe kalite kritik mi?] Evet (yaratıcı, hukuki, eğitim) → API (Claude/GPT-4o) Hayır (genel sohbet, basit) → Self-host (Llama-3-8B yeter) | v [Q4: Model davranışı kontrolü gerekli mi?] Evet (özel persona, sektör-spesifik) → Self-host (fine-tune zaten yaptın) Hayır → API | v [Q5: Hibrit imkanı var mı?] Evet → İki tier kur (basit/komplekx) Hayır → Tek seçim
11.2 Pratik öneri (çoğu TR startup için)#
- 0-3 ay (MVP): API kullan. Hızla başla, ürün-pazar uyumunu test et.
- 3-6 ay (büyüme): hacim 10K/gün'ü geçince hibrit kur. API + self-host.
- 6-12 ay (olgunlaşma): 50K/gün geçince ağırlıklı self-host. API sadece edge case'ler.
12.1 Egzersizler#
E1. Türkçe e-ticaret chatbot, 30K conversation/gün, ürün arama soruları. API vs self-host kararı için 4 boyutu (maliyet, gizlilik, performans, bağımsızlık) sayısallaştır ve karar ver.
E2. Self-host break-even noktasını farklı modeller için hesapla: Llama-3-8B vs Llama-3-70B vs Llama-3-405B. Karşılaştırılan API: GPT-4o.
E3. Avrupa Birliği AI Act 2024 uyumu için 'high-risk AI' (sağlık, eğitim) kategorisindeki bir Türkçe LLM sistemi. API mı self-host mu? Hukuki gerekçelerle.
E4. Hibrit strateji: 100K conversation/gün TR SaaS. %70 basit chat, %25 RAG, %5 hassas. Her tier için API mı self-host mu? Total maliyet hesabı.
E5. Vendor lock-in senaryosu: GPT-4o üzerinde 6 ay önemli fine-tune yaptın (system prompts, few-shot examples optimize edildi). OpenAI Pricing 3× artırır. Self-host'a geçmek için kaç ay gerekir, ne yatırım?
E6. Türkçe sağlık asistanı: 2K conversation/gün. KVKK + tıbbi disclaimer gereksinimleri. Self-host setup detayını yaz — hangi GPU, hangi DC lokasyonu, hangi compliance dokümanlar.
E7. Latency hesabı: kullanıcı 'TTFB <500ms' istiyor. API (Frankfurt, OpenAI) vs Self-host (Türkiye DC) farkını çalış. Hangisi gereksinimi karşılar?
E8. Self-host'un 'gizli maliyetleri' nedir? GPU saat ücreti dışında hangi giderler var? Ay sonunda gerçek maliyet GPU + ne kadar?
E9. Türkçe SaaS bir startup. İlk 3 ay MVP. API mı self-host mu başla? Hangi gerekçe?
E10. API kullanırken 'fallback strategy' nasıl tasarlanır? OpenAI down olduğunda ne yapar sistemın?
✅ Ders 16.1 Özeti — Self-Host Karar Çerçevesi
Self-host vs API kararı bir 'ucuz vs pahalı' sorusu değil — 4 boyutlu mühendislik kararı: maliyet, gizlilik, performans, bağımsızlık. Türkçe için maliyet break-even API hacim (GPT-4o için ~5-10K conv/gün, GPT-4o mini için ~200-500K). 5 senaryoda doğru karar farklı: e-ticaret (API), RAG (self-host), içerik üretim (API), hukuki (self-host zorunlu), sağlık (self-host zorunlu). Hibrit strateji çoğu olgun TR SaaS'in seçimi. MVP aşaması API, ölçek büyürse self-host. TCO 2-3× GPU saat ücreti — gizli maliyetleri hesaba kat. Sonraki ders: kararını verdin, şimdi self-host nasıl kurulur — vLLM, paged attention, production-grade serving.
Sonraki Ders: vLLM Production Setup#
Ders 16.2'de karar verildi, şimdi inşaat. vLLM (UC Berkeley + Anyscale), modern LLM serving'in fiili standardı. Paged attention, continuous batching, OpenAI-compatible API. Kubernetes deployment, monitoring, autoscaling, SLA garantileri. Hardware (H100 vs A100 vs RTX 4090) seçimi. Türkçe Llama-3 production deployment'ı baştan sona.
Sık Sorulan Sorular
Önemli soru. 2024-2025'te API fiyatları gerçekten 50-100× düştü. Bu, **break-even noktasını yukarı kaydırdı** — yani self-host'un avantajını kazanabileceği hacim arttı.
GPT-4o mini ($0.15/1M input + $0.60/1M output) ile karşılaştırma:
- Self-host break-even ~200-500K conversation/gün
- Bu çoğu TR SaaS için ulaşılması zor hacim
**Ama**: maliyet hâlâ kararın **dört boyutundan biri**. Diğer boyutlar (gizlilik, performans, bağımsızlık) hâlâ self-host'u tercih edilir kılıyor:
- Sağlık, hukuk, finans: gizlilik kazanır
- Türkiye-içi düşük latency: performans kazanır
- AB AI Act 'high-risk' kategori: uyum kazanır
- Lock-in kaygısı: bağımsızlık kazanır
**Sonuç**: maliyet boyutu zayıfladı, ama diğer üç boyutta self-host hâlâ değerli. Ayrıca: API fiyatları gelecekte yine artabilir (rekabet azalırsa, regülasyon gelirse).
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Atölye Kurulumu: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight
Öğrenmeye BaşlaBağlantılı Pillar Konular