Self-host'ta GPU'm boş duruyorsa para kaybediyorum. Tam tersi: API kullanırsam sadece kullandığım kadar ödüyorum. Yine de self-host neden mantıklı?

Çok doğru soru. **Utilization** self-host'un en zayıf noktası. **Çözüm 1: Co-located workload**. Aynı GPU'da farklı işler: - LLM serving (gündüz, kullanıcı talebi) - Batch processing (gece, doküman özetleme, RAG indexing) - Fine-tuning / experimentation (talep dışı saatler) Utilization %80+'a çıkar. **Çözüm 2: Spot instances** (cloud). AWS/GCP spot GPU'lar %50-70 ucuz, %95+ availability. Hacim öngörülemezse, spot kullan. **Çözüm 3: Autoscaling**. Düşük talep saatlerinde GPU'yu kapat (cloud), yüksek talep saatlerinde aç. Maliyet talebe göre. **Çözüm 4: Multi-tenancy**. Birden fazla müşteri için aynı GPU. Eğer SaaS sağlayıcısı isen, kullanıcılar arası utilization paylaşılır. **Çıkış**: utilization meselesi yönetilebilir, ama **dikkat gerektirir**. Bunun için olgun DevOps ekibi şart. MVP aşamasında utilization düşük olur, ölçek büyüyünce yönet.

Türkiye'de hangi cloud provider self-host için en uygun? AWS Frankfurt yeterli mi?

Sektöre göre değişir: **Genel SaaS (KVKK orta)**: AWS Frankfurt yeterli. AB-Türkiye veri akışı DPA ile düzenlenir. AWS'in KVKK uyum dokümanları detaylı. Latency Türkiye'den 30-50ms — kabul edilebilir. **Hassas veri (sağlık, finans)**: Türkiye-içi tercih: - **Türk Telekom Bulut**: KVKK uyumlu, Türkiye'de DC. Sınırlı GPU (H100 az), bekleme listesi olabilir. - **Vodafone Bulut**: KVKK uyumlu, GPU sınırlı. Gelişmekte. - **On-premise**: en sıkı kontrol. CAPEX yüksek (~$25K H100), 3 yıl amortisman. KVKK uyum kolay. **Hibrit**: production self-host Türkiye'de, dev/test AWS Frankfurt'ta. KVKK 'üretim ortamı' kısıtı sıkı, dev ortamı esnek. **Önerim**: - Startup MVP: AWS Frankfurt (kolay, hızlı, GPU bol) - Olgun product (50K+ conversation/gün): Türk Telekom veya on-premise (KVKK ve latency için) - Çok hassas (sağlık, finans): on-premise + redundancy

Self-host ekibim yok. Mühendis bulmak/eğitmek zaman alacak. Bu süreçte ne yapayım?

Pragmatik gerçek: çoğu TR SaaS startup'ında DevOps + ML ops yetkinliği eksik. Mühendis bulmak ay sürer. **Adım adım strateji**: **Faz 1 (0-3 ay)**: API kullan. Mühendis arayışına başla. **Faz 2 (3-6 ay)**: Managed self-host servisleri dene: - **Together AI**: Türkçe-optimize edilmiş Llama-3 modellerini self-host gibi sunuyor, $0.20-0.50/1M - **Modal**: Python-friendly serverless GPU, vLLM ile entegre - **RunPod**: GPU cloud (saatlik kiralık), basit deployment - **Anyscale**: vLLM'in arkasındaki ekip, managed servis Bu servisler 'tam self-host'tan biraz pahalı ama API'den çok ucuz, ve operations sorumlulukları yarıya iniyor. **Faz 3 (6-12 ay)**: Tam self-host (kendi GPU + DevOps). Mühendis dışı ekip iyileşmişse içeride yap. Yoksa fractional CTO veya consulting'le başla. **Anti-pattern**: 'mühendis yok, bekleyelim'. Bekleme süresinde rakipler önde gidiyor. Hibrit yaklaşım ile **şimdi başla**.

API kullanırken provider değiştirirsem hangi şeyler 'aynı kalır', hangi şeyler 'değişir'?

Provider migration karmaşıklığı sandığından fazla: **Aynı kalır (kolay migrate)**: - Sistem prompt'unun genel yapısı (genel kurallar, persona) - Genel iş mantığı (validation, error handling) - Backend infrastructure (DB, queue, monitoring) - Frontend UI **Değişir (yeniden çalışmak gerek)**: - **Tool/function calling format**: OpenAI 'functions' vs Anthropic 'tools' farklı JSON şemaları - **Streaming format**: OpenAI SSE vs Anthropic SSE biraz farklı - **Vision input**: image format farklı (URL vs base64) - **Token sayma**: tokenizer farklı, context window farklı - **Prompt engineering**: GPT-4 'system + user' Claude 'human + assistant' farklı tarzlarda en iyi sonuç - **Output format**: Claude default daha uzun cevap, GPT default daha kısa - **Rate limits**: tier sistemler ve quota farklı - **Error handling**: HTTP status, retry logic farklı **Pratik tahmin**: tam migrate ~3-6 hafta efektif mühendislik işi. **Çözüm — abstraction layer**: en başta bir 'LLM provider abstraction' yaz. Her provider için adapter. Migration sonra tek noktada değişiklik. Open-source: LiteLLM, LangChain.

Self-Host Karar Çerçevesi: OpenAI API vs Kendi GPU'n — Maliyet, Gizlilik, Performans, Bağımsızlık

Q: OpenAI sürekli fiyat düşürüyor (GPT-4 → GPT-4o → GPT-4o mini, $30/1M → $0.15/1M). Self-host artık mantıklı mı?

Önemli soru. 2024-2025'te API fiyatları gerçekten 50-100× düştü. Bu, **break-even noktasını yukarı kaydırdı** — yani self-host'un avantajını kazanabileceği hacim arttı. GPT-4o mini ($0.15/1M input + $0.60/1M output) ile karşılaştırma: - Self-host break-even ~200-500K conversation/gün - Bu çoğu TR SaaS için ulaşılması zor hacim **Ama**: maliyet hâlâ kararın **dört boyutundan biri**. Diğer boyutlar (gizlilik, performans, bağımsızlık) hâlâ self-host'u tercih edilir kılıyor: - Sağlık, hukuk, finans: gizlilik kazanır - Türkiye-içi düşük latency: performans kazanır - AB AI Act 'high-risk' kategori: uyum kazanır - Lock-in kaygısı: bağımsızlık kazanır **Sonuç**: maliyet boyutu zayıfladı, ama diğer üç boyutta self-host hâlâ değerli. Ayrıca: API fiyatları gelecekte yine artabilir (rekabet azalırsa, regülasyon gelirse).

LLM üretimine geçişin ilk kritik kararı: API mı, self-host mu? Bu dersin hedefi karar mühendisliğini sağlam temellendirmek. Maliyet matematiği (per-token ekonomisi, fixed vs variable costs), gizlilik (KVKK, sektörel kısıtlar), performans (latency, throughput), bağımsızlık (lock-in riski). Türkçe SaaS için 5 farklı senaryo: chatbot, RAG, content gen, hukuki, sağlık. Her birinde doğru karar farklı.

Şükrü Yusuf KAYA

80 dakikalık okuma

13.05.2026

İleri

Self-Host Karar Çerçevesi: OpenAI API vs Kendi GPU'n — Maliyet, Gizlilik, Performans, Bağımsızlık

🤔 İlk Kritik Karar — API mı, Kendi GPU'n mu?

Türkçe asistanını ürettin (Modül 14-15). Şimdi son adım: kullanıcılara nasıl ulaşacak? İki yol var.

Yol A: OpenAI API kullan. Tek satır kod, anında çalışır. Dakikada 100 istekten 100,000 isteğe ölçeklenir. Ama: per-token öder, veri OpenAI'a gider, model değişirse senin behavior değişir.

Yol B: Kendi GPU'nda self-host. Üzerinde tam kontrol. Veriler senin sunucunda kalır. Sabit maliyet. Ama: setup karmaşık, ölçeklendirme senin sorumluluğun, downtime senin başının ağrısı.

Doğru cevap: senaryona bağlı. Bu ders mühendislik gözüyle her boyutu (maliyet, gizlilik, performans, bağımsızlık) sayısal olarak değerlendiriyor. Türkçe SaaS'ler için 5 farklı use-case'te doğru kararı çıkartıyoruz. Mühendislik kararı romantik değildir — matematiksel, hassas, bağlamsaldır. 80 dakika sonra: 'API mı, self-host mu?' sorusuna rakamlarla cevap verecek hâle geleceksin.

Bu Derste Neler Var? (12 Bölüm)#

Kararın 4 Boyutu — Maliyet, Gizlilik, Performans, Bağımsızlık
Per-token Ekonomisi — OpenAI fiyat dönüşümü
Self-host Maliyet Matematiği — GPU saat ücreti, utilization, amortisman
Break-even Analizi — kaç istek/gün'de denk geliyor
Gizlilik Boyutu — KVKK, sektörel kısıt, veri lokasyonu
Latency Boyutu — API ms vs self-host ms
Throughput Boyutu — concurrent users kapasitesi
Vendor Lock-in Riski — model değişirse ne olur?
5 Türkçe SaaS Senaryosu — gerçek karar matrisi
Hibrit Stratejiler — bazen ikisini birlikte kullan
Karar Ağacı — adım adım seçim
Egzersizler ve Sezgi Soruları

1. Kararın 4 Boyutu#

Karar bir 'API ucuz mu, pahalı mı?' sorusu değil. 4 farklı boyut var, her biri kararı etkiliyor:

1.1 Maliyet Boyutu#

API: değişken, talep başına öde. Düşük talepte ucuz, yüksek talepte pahalı. Self-host: sabit + amortisman. Düşük talepte pahalı (GPU oturuyor), yüksek talepte ucuz.

→ Maliyet için kullanım hacmi belirleyici.

1.2 Gizlilik Boyutu#

API: veri OpenAI/Anthropic/Google sunucusuna gider. Şirketler 'veri training için kullanılmaz' diyor ama:

Log'lara giriyor (kanıtlanmamış 'sıfır retention')
Sızıntı riski (örn. Mart 2023 ChatGPT veri sızıntısı)
Veri Türkiye dışı (KVKK için ek prosedür)

Self-host: veri sunucundan çıkmaz.

→ Gizlilik için sektör + hassasiyet belirleyici.

1.3 Performans Boyutu#

API:

Latency: TÜrkiye'den OpenAI ~150-300ms network + processing
Throughput: rate limit (tier'a göre) — örn. Tier-1 GPT-4o 500 RPM
Reliability: %99.9 SLA (yaklaşık)

Self-host:

Latency: kendi sunucun, ~50-100ms
Throughput: kendi GPU kapasitesi (sınırsız değil ama dynamic)
Reliability: kendi uptime'ından sorumlusun

→ Performans için kullanıcı beklentisi belirleyici.

1.4 Bağımsızlık Boyutu (Lock-in)#

API:

OpenAI fiyat artırırsa → sen ödüyorsun.
OpenAI deprecation duyurursa → sen migrate ediyorsun.
OpenAI Türkiye'ye servis veremiyorsa (sanction risk, AB AI Act sorunu) → sen biten servisle uğraşıyorsun.
'GPT-5 lansman oldu, sen anlam veremiyorsun' — kontrol senin değil.

Self-host:

Model senin. Hep aynı. Değiştirmek istersen sen karar verirsin.
Türkiye'de sunucu, KVKK uyumu kolay.
Bağımsızlık vergisi: setup ve maintenance.

→ Bağımsızlık için stratejik öncelik belirleyici.

1.5 Boyutların ağırlıkları sektöre göre değişir#

Eğitim teknolojisi: maliyet > bağımsızlık > gizlilik > performans
Sağlık: gizlilik > bağımsızlık > maliyet > performans
Finans: gizlilik = performans > bağımsızlık > maliyet
E-ticaret chatbot: maliyet > performans > bağımsızlık > gizlilik
Hukuki danışmanlık: gizlilik > bağımsızlık > performans > maliyet

Karar tek formülle verilemez. Senin önceliklerini sayısallaştırman gerekir.

2-4. Maliyet Matematiği — Sayısal Karşılaştırma#

2.1 API maliyetini hesaplama#

OpenAI fiyat (2025 ortası):

GPT-4o: $2.50 / 1M input token,$ 10 / 1M output token
GPT-4o mini: $0.15 / 1M input,$ 0.60 / 1M output
o1: $15 / 1M input,$ 60 / 1M output

Claude (Anthropic):

Claude 3.5 Sonnet: $3 / 1M input,$ 15 / 1M output
Claude 3 Haiku: $0.25 / 1M input,$ 1.25 / 1M output

Türkçe için tokenization vergisi (Modül 6.9): aynı bilgi İngilizce'den ~1.5-2× token. Yani GPT-4o fiili maliyet Türkçe'de etkin $4-5 / 1M input.

2.2 Per-conversation maliyet hesabı#

Örnek: Türkçe sohbet botu

Ortalama soru: 100 token (~70 Türkçe kelime)
Sistem mesajı + RAG context: 1500 token
Cevap: 300 token

GPT-4o için:

Input: 1600 token × $2.50/1M =$ 0.004
Output: 300 token × $10/1M =$ 0.003
Per-conversation: $0.007 (~25 kuruş)

GPT-4o mini için:

Per-conversation: $0.00045 (~1.5 kuruş, 15× ucuz)

2.3 Aylık API maliyet projeksiyonu#

10K conversation/gün (TR SaaS orta ölçek):

GPT-4o: 10K × 30 × $0.007 = **$ 2,100/ay**
GPT-4o mini: 10K × 30 × $0.00045 = **$ 135/ay**

100K conversation/gün (TR SaaS büyük ölçek):

GPT-4o: $21,000/ay
GPT-4o mini: $1,350/ay

3.1 Self-host maliyet hesabı#

Hardware: 1× NVIDIA H100 80GB.

Cloud (spot): $2.50/saat
Cloud (on-demand): $4-8/saat
On-premise (3 yıl amortisman): $25K satın alma / (3 yıl × 8760 saat) = ~$ 0.95/saat (+ elektrik + bandwidth + bakım ~$1.50/saat efektif)

Aylık: spot

1,800, on-demand

3,600, on-premise efektif $1,100.

Throughput: Llama-3-8B + vLLM + H100:

~3,000 token/saniye (tek GPU, mixed throughput)
Aylık: 3,000 × 60 × 60 × 24 × 30 = 7.8B token/ay

Yani 1 H100 ile aylık 7.8B token üretebilirsin.

3.2 Self-host conversation kapasitesi#

Conversation başına ~400 token (input + output ortalama):

7.8B / 400 = 19.5M conversation/ay (teorik max)
Pratik (utilization %50-60): ~10M conversation/ay

10K/gün TR SaaS: 300K conversation/ay → utilization %3 → çok düşük → self-host mantıksız. 100K/gün: 3M/ay → utilization %30 → orta. 300K/gün: 9M/ay → utilization %90 → self-host çok mantıklı.

4.1 Break-even analizi#

Hangi noktada self-host API'den ucuzlaşıyor?

GPT-4o ($2,100/ay 10K conversation, lineer artar):

10K/gün: API $2,100, self-host (1 H100)$ 1,800 → self-host kıl payı ucuz
50K/gün: API $10,500, self-host$ 1,800 → self-host 5.8× ucuz
100K/gün: API $21,000, self-host$ 1,800 (kapasite yeter) → self-host 11.7× ucuz

GPT-4o mini ile karşılaştırma:

10K/gün: API $135, self-host$ 1,800 → API 13× ucuz
100K/gün: API $1,350, self-host$ 1,800 → API biraz ucuz
500K/gün: API $6,750, self-host (2 H100)$ 3,600 → self-host 2× ucuz

Sonuç: GPT-4o ile karşılaştırırken break-even ~5-10K conversation/gün. GPT-4o mini ile karşılaştırırken ~200-500K conversation/gün.

Türkçe'de fiili break-even daha düşük (tokenization vergisi).

5-7. Gizlilik, Latency, Throughput#

5.1 KVKK ve sektörel kısıtlar#

6698 sayılı KVKK için kritik maddeler:

Madde 9: Yurt dışına veri aktarımı için açık rıza veya yeterli koruma gerekir.
Madde 12: Veri güvenliği önlemleri zorunlu.
Madde 11: Veri sahibinin silme/düzeltme hakları.

API kullanımının zorlukları:

OpenAI ABD sunucularında. AB-ABD veri akışı için 'Data Processing Addendum' (DPA) imzalanmalı.
Audit log: OpenAI'a ne gitti, ne döndü — sen tüm bunları log etmen gerekir.
Silme hakkı: kullanıcı 'tüm verimi silmek istiyorum' dediğinde, OpenAI'da tutulan log'lara müdahale edemezsin.

Sektörel ekstra kısıtlar:

Sağlık: HİMSS Türkiye standardı, hasta verisi yurt dışı çıkamaz pratikte.
Finans: BDDK düzenlemeleri, bankacılık verisi sınırlı.
Hukuk: avukat-müvekkil gizliliği, OpenAI dahil 3. tarafa veri vermek riskli.
Eğitim: çocuk verileri (8 yaş altı) için özel kısıtlar.

5.2 Self-host gizlilik avantajı#

Veri Türkiye'de sunucuda (örn: AWS Frankfurt veya Türk Telekom Bulut)
Audit log tam kontrolünde
Silme talebi: log'larını sen yönetiyorsun
Compliance documentation kolayca üretilir

6.1 Latency karşılaştırma#

Ortalama latency (Türkiye'den):

API:

TTFB (Time To First Byte): 200-500ms
Tam cevap (300 token): 1-3 saniye
Network gecikmesi: ~100-200ms (Türkiye → ABD round trip)

Self-host (vLLM, H100, Llama-3-8B, AWS Frankfurt):

TTFB: 80-150ms
Tam cevap (300 token): 0.8-1.5 saniye
Network gecikmesi: ~30-50ms (Türkiye → Frankfurt)

Self-host (Türkiye-içi datacenter, on-premise):

TTFB: 30-80ms
Tam cevap: 0.6-1.2 saniye
Network gecikmesi: <20ms

→ Self-host genelde 2-3× daha hızlı, özellikle Türkiye-içi.

7.1 Throughput karşılaştırma#

Concurrent users (eşzamanlı istek):

API:

OpenAI Tier-1 GPT-4o: 500 RPM
Tier-2 (ödenmiş $50+): 5,000 RPM
Tier-5 (enterprise): 30,000 RPM
Burst capacity sınırlı (rate limit), ekstra kapasite için 'satın al'

Self-host (vLLM, H100, Llama-3-8B):

~50-100 concurrent users (batched)
Burst capacity: 200 user (kısa süre)
Daha fazla için: ekstra GPU ekle (lineer ölçeklendirme)

7.2 Önemli not: 'tier upgrade' gecikme#

OpenAI tier upgrade için en az 30 gün kullanım geçmişi ister. Yani aniden ölçeklenmen lazım olursa (örn. viral oldun), API tier upgrade hemen olmuyor. Self-host'ta GPU ekleme dakikalar (cloud) veya günler (on-prem).

8-9. Türkçe SaaS 5 Senaryosunda Doğru Karar#

9.1 Senaryo A: Türkçe E-ticaret Chatbot#

Profil: 5K conversation/gün, kullanıcı sohbeti (genel ürün soruları), gizlilik orta.

Karar: API (GPT-4o mini).

5K × 30 × $0.00045 =$ 67.5/ay
Self-host (1 H100): $1,800/ay
Maliyet farkı 27× — net API kazanır
Gizlilik kısıtı yok (ürün soruları PII içermiyor)

9.2 Senaryo B: Türkçe RAG (Bilgi Tabanı + Sorgulama)#

Profil: 20K conversation/gün, şirket içi dokümanlar (orta düzey hassas), iç kullanım.

Karar: Self-host (Llama-3-8B + Modül 15 capstone DPO).

API: ~$1,800-3,000/ay (GPT-4o mini ile)
Self-host: $1,800/ay
Maliyet ben benzer
Gizlilik avantajı belirleyici → şirket içi dokümanlar OpenAI'a gitmiyor
Kontrol: model davranışını şirket kültürüne göre fine-tune edebilirsin

9.3 Senaryo C: Türkçe İçerik Üretimi (Blog, Sosyal Medya)#

Profil: 1K uzun cevap/gün, yaratıcılık gerekli, gizlilik düşük.

Karar: API (Claude 3.5 Sonnet).

Claude yaratıcı yazma çok güçlü
Per-conversation $0.03-0.05 (uzun output)
1K × 30 × $0.04 =$ 1,200/ay
Self-host kalitesi yetersiz (yaratıcı writing API en üst seviyede)
Gizlilik düşük → veri sızıntısı kabul edilebilir

9.4 Senaryo D: Türkçe Hukuki Danışmanlık#

Profil: 500 conversation/gün, müvekkil bilgileri (çok hassas), avukat-müvekkil gizliliği.

Karar: Self-host (zorunlu).

API kullanmak avukat-müvekkil gizliliği ihlali (3. tarafa veri)
Türkiye Barolar Birliği müvekkil verisinin yurt dışı çıkmasını sınırlar
Self-host: $1,800/ay sabit. 500 × 30 = 15K conversation/ay, kapasitenin altında, ama gizlilik kazanır
Belki fine-tune ile Türk hukuk corpus'una optimize

9.5 Senaryo E: Türkçe Sağlık Asistanı (Pre-clinical)#

Profil: 2K conversation/gün, hasta semptom sorgulamaları, KVKK + HIPAA-tarzı kısıtlar.

Karar: Self-host + ek özen.

KVKK sağlık verisi yurt dışı çıkamaz
HİMSS Türkiye standartları self-host'a yönlendiriyor
2K × 30 = 60K conversation/ay, 1 H100 yeter
Maliyet API'den ucuz olsa bile, gizlilik tek başına self-host'u zorunlu kılıyor
Tıbbi disclaimer + uzman gözetim katmanı şart

8.1 Hibrit Strateji — En Akıllı Yaklaşım#

Çoğu olgun TR SaaS hibrit kullanıyor:

Tier 1 (basit, ucuz): GPT-4o mini API — sık sohbet, basit soru-cevap. Tier 2 (kompleks): Self-host Llama-3 → karmaşık queries. Tier 3 (hassas): Self-host fine-tuned model → KVKK hassas konular.

Router: kullanıcı sorusunu bir küçük classifier (8B parametreli model) önce sınıflıyor:

class DemoRouter:
    def classify(self, query):
        # Hızlı sınıflama (10ms)
        if is_simple_chat(query):
            return 'gpt4o-mini'  # API
        elif is_complex_question(query):
            return 'llama3-self-host'
        elif has_sensitive_data(query):
            return 'llama3-finetuned-self-host'

Maliyet ve gizliliği optimize eder.

11-12. Karar Ağacı + Egzersizler#

11.1 Adım adım karar ağacı#

[BAŞLA]
  |
  v
[Q1: Hassas veri mi işliyorsun?]
  Evet (KVKK/sağlık/hukuk/finans) → Self-host (zorunlu, lokasyon Türkiye)
  Hayır → Q2'ye geç
  |
  v
[Q2: Günlük conversation hacmin?]
  <5K → API (ekonomik)
  5K-50K → Q3'e geç
  >50K → Self-host (maliyet kazanır)
  |
  v
[Q3: Türkçe kalite kritik mi?]
  Evet (yaratıcı, hukuki, eğitim) → API (Claude/GPT-4o)
  Hayır (genel sohbet, basit) → Self-host (Llama-3-8B yeter)
  |
  v
[Q4: Model davranışı kontrolü gerekli mi?]
  Evet (özel persona, sektör-spesifik) → Self-host (fine-tune zaten yaptın)
  Hayır → API
  |
  v
[Q5: Hibrit imkanı var mı?]
  Evet → İki tier kur (basit/komplekx)
  Hayır → Tek seçim

11.2 Pratik öneri (çoğu TR startup için)#

0-3 ay (MVP): API kullan. Hızla başla, ürün-pazar uyumunu test et.
3-6 ay (büyüme): hacim 10K/gün'ü geçince hibrit kur. API + self-host.
6-12 ay (olgunlaşma): 50K/gün geçince ağırlıklı self-host. API sadece edge case'ler.

12.1 Egzersizler#

E1. Türkçe e-ticaret chatbot, 30K conversation/gün, ürün arama soruları. API vs self-host kararı için 4 boyutu (maliyet, gizlilik, performans, bağımsızlık) sayısallaştır ve karar ver.

E2. Self-host break-even noktasını farklı modeller için hesapla: Llama-3-8B vs Llama-3-70B vs Llama-3-405B. Karşılaştırılan API: GPT-4o.

E3. Avrupa Birliği AI Act 2024 uyumu için 'high-risk AI' (sağlık, eğitim) kategorisindeki bir Türkçe LLM sistemi. API mı self-host mu? Hukuki gerekçelerle.

E4. Hibrit strateji: 100K conversation/gün TR SaaS. %70 basit chat, %25 RAG, %5 hassas. Her tier için API mı self-host mu? Total maliyet hesabı.

E5. Vendor lock-in senaryosu: GPT-4o üzerinde 6 ay önemli fine-tune yaptın (system prompts, few-shot examples optimize edildi). OpenAI Pricing 3× artırır. Self-host'a geçmek için kaç ay gerekir, ne yatırım?

E6. Türkçe sağlık asistanı: 2K conversation/gün. KVKK + tıbbi disclaimer gereksinimleri. Self-host setup detayını yaz — hangi GPU, hangi DC lokasyonu, hangi compliance dokümanlar.

E7. Latency hesabı: kullanıcı 'TTFB <500ms' istiyor. API (Frankfurt, OpenAI) vs Self-host (Türkiye DC) farkını çalış. Hangisi gereksinimi karşılar?

E8. Self-host'un 'gizli maliyetleri' nedir? GPU saat ücreti dışında hangi giderler var? Ay sonunda gerçek maliyet GPU + ne kadar?

E9. Türkçe SaaS bir startup. İlk 3 ay MVP. API mı self-host mu başla? Hangi gerekçe?

E10. API kullanırken 'fallback strategy' nasıl tasarlanır? OpenAI down olduğunda ne yapar sistemın?

✅ Ders 16.1 Özeti — Self-Host Karar Çerçevesi

Self-host vs API kararı bir 'ucuz vs pahalı' sorusu değil — 4 boyutlu mühendislik kararı: maliyet, gizlilik, performans, bağımsızlık. Türkçe için maliyet break-even API hacim (GPT-4o için ~5-10K conv/gün, GPT-4o mini için ~200-500K). 5 senaryoda doğru karar farklı: e-ticaret (API), RAG (self-host), içerik üretim (API), hukuki (self-host zorunlu), sağlık (self-host zorunlu). Hibrit strateji çoğu olgun TR SaaS'in seçimi. MVP aşaması API, ölçek büyürse self-host. TCO 2-3× GPU saat ücreti — gizli maliyetleri hesaba kat. Sonraki ders: kararını verdin, şimdi self-host nasıl kurulur — vLLM, paged attention, production-grade serving.

Sonraki Ders: vLLM Production Setup#

Ders 16.2'de karar verildi, şimdi inşaat. vLLM (UC Berkeley + Anyscale), modern LLM serving'in fiili standardı. Paged attention, continuous batching, OpenAI-compatible API. Kubernetes deployment, monitoring, autoscaling, SLA garantileri. Hardware (H100 vs A100 vs RTX 4090) seçimi. Türkçe Llama-3 production deployment'ı baştan sona.

Sık Sorulan Sorular

Önemli soru. 2024-2025'te API fiyatları gerçekten 50-100× düştü. Bu, **break-even noktasını yukarı kaydırdı** — yani self-host'un avantajını kazanabileceği hacim arttı. GPT-4o mini ($0.15/1M input + $0.60/1M output) ile karşılaştırma: - Self-host break-even ~200-500K conversation/gün - Bu çoğu TR SaaS için ulaşılması zor hacim **Ama**: maliyet hâlâ kararın **dört boyutundan biri**. Diğer boyutlar (gizlilik, performans, bağımsızlık) hâlâ self-host'u tercih edilir kılıyor: - Sağlık, hukuk, finans: gizlilik kazanır - Türkiye-içi düşük latency: performans kazanır - AB AI Act 'high-risk' kategori: uyum kazanır - Lock-in kaygısı: bağımsızlık kazanır **Sonuç**: maliyet boyutu zayıfladı, ama diğer üç boyutta self-host hâlâ değerli. Ayrıca: API fiyatları gelecekte yine artabilir (rekabet azalırsa, regülasyon gelirse).

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Kurs Çerçevesi ve Atölye Kurulumu

LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası

Öğrenmeye Başla

Modül 0: Kurs Çerçevesi ve Atölye Kurulumu

Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti

Öğrenmeye Başla

Modül 0: Kurs Çerçevesi ve Atölye Kurulumu

Atölye Kurulumu: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight

Öğrenmeye Başla

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular

Pillar Konusu

AI Governance ve EU AI Act Uyumu

AI Governance; yapay zeka sistemlerinin tasarımdan kullanıma kadar etik, güvenlik, şeffaflık, açıklanabilirlik ve hukuki uyum (EU AI Act, KVKK/GDPR, ISO 42001) gerekliliklerini karşıladığını güvence altına alan kurumsal yönetişim çerçevesidir.