If my GPU sits idle in self-host, I'm losing money. Opposite: API I only pay for what I use. Why is self-host sensible anyway?

Very valid question. **Utilization** is self-host's weakest point. **Solution 1: Co-located workload**. Different jobs on same GPU: - LLM serving (daytime, user traffic) - Batch processing (night, document summarization, RAG indexing) - Fine-tuning / experimentation (off-hours) Utilization rises to %80+. **Solution 2: Spot instances** (cloud). AWS/GCP spot GPUs %50-70 cheaper, %95+ availability. If volume unpredictable, use spot. **Solution 3: Autoscaling**. Turn off GPU in low-traffic hours (cloud), turn on in high-traffic hours. Cost matches demand. **Solution 4: Multi-tenancy**. Same GPU for multiple customers. If you're SaaS provider, utilization shared among users. **Conclusion**: utilization issue manageable, but **requires attention**. Mature DevOps team essential. Utilization low at MVP stage, manage when scale grows.

Which cloud provider in Turkey best for self-host? Is AWS Frankfurt enough?

Depends on sector: **General SaaS (medium KVKK)**: AWS Frankfurt sufficient. EU-Turkey data flow regulated by DPA. AWS's KVKK compliance documents detailed. Latency 30-50ms from Turkey — acceptable. **Sensitive data (health, finance)**: Turkey-domestic preferred: - **Türk Telekom Cloud**: KVKK compliant, DC in Turkey. Limited GPUs (few H100s), may have waitlist. - **Vodafone Cloud**: KVKK compliant, GPUs limited. Developing. - **On-premise**: tightest control. High CAPEX (~$25K H100), 3-year amortization. KVKK compliance easy. **Hybrid**: production self-host in Turkey, dev/test in AWS Frankfurt. KVKK 'production environment' strict, dev environment flexible. **My recommendation**: - Startup MVP: AWS Frankfurt (easy, fast, GPU plenty) - Mature product (50K+ conversation/day): Türk Telekom or on-premise (for KVKK and latency) - Very sensitive (health, finance): on-premise + redundancy

I don't have self-host team. Finding/training engineer will take time. What do I do in this process?

Pragmatic reality: most Turkish SaaS startups lack DevOps + ML ops expertise. Finding engineer takes months. **Step-by-step strategy**: **Phase 1 (0-3 months)**: Use API. Start engineer search. **Phase 2 (3-6 months)**: Try managed self-host services: - **Together AI**: Turkish-optimized Llama-3 models served like self-host, $0.20-0.50/1M - **Modal**: Python-friendly serverless GPU, integrated with vLLM - **RunPod**: GPU cloud (hourly rental), simple deployment - **Anyscale**: team behind vLLM, managed service These services slightly more expensive than 'full self-host' but much cheaper than API, and operations responsibilities halved. **Phase 3 (6-12 months)**: Full self-host (own GPU + DevOps). If non-engineer team improved, do internally. Otherwise start with fractional CTO or consulting. **Anti-pattern**: 'No engineer, let's wait'. While waiting, competitors move ahead. **Start now** with hybrid approach.

When switching API providers, what stays the same and what changes?

Provider migration complexity more than you think: **Stays same (easy to migrate)**: - General structure of system prompt (general rules, persona) - General business logic (validation, error handling) - Backend infrastructure (DB, queue, monitoring) - Frontend UI **Changes (need to rework)**: - **Tool/function calling format**: OpenAI 'functions' vs Anthropic 'tools' different JSON schemas - **Streaming format**: OpenAI SSE vs Anthropic SSE slightly different - **Vision input**: image format different (URL vs base64) - **Token counting**: tokenizer different, context window different - **Prompt engineering**: GPT-4 'system + user' vs Claude 'human + assistant' best results in different styles - **Output format**: Claude default longer responses, GPT default shorter - **Rate limits**: tier systems and quotas different - **Error handling**: HTTP status, retry logic different **Practical estimate**: full migration ~3-6 weeks of effective engineering. **Solution — abstraction layer**: write 'LLM provider abstraction' from the start. Adapter for each provider. Migration becomes single-point change. Open-source: LiteLLM, LangChain.

Self-Host Decision Framework: OpenAI API vs Your Own GPU — Cost, Privacy, Performance, Independence

Q: OpenAI keeps dropping prices (GPT-4 → GPT-4o → GPT-4o mini, $30/1M → $0.15/1M). Is self-host still sensible?

Important question. API prices truly dropped 50-100× in 2024-2025. This **shifted break-even point upward** — i.e. volume where self-host wins its advantage increased. Comparison with GPT-4o mini ($0.15/1M input + $0.60/1M output): - Self-host break-even ~200-500K conversations/day - Hard volume for most Turkish SaaS to reach **But**: cost is still **one of four dimensions** of decision. Other dimensions (privacy, performance, independence) still favor self-host: - Health, legal, finance: privacy wins - Low latency in Turkey: performance wins - EU AI Act 'high-risk' category: compliance wins - Lock-in concern: independence wins **Conclusion**: cost dimension weakened, but self-host still valuable on other three dimensions. Also: API prices may rise in future (if competition decreases, regulation comes).

First critical decision in LLM production: API or self-host? This lesson's aim is to ground decision engineering solidly. Cost mathematics (per-token economics, fixed vs variable costs), privacy (KVKK, sectoral restrictions), performance (latency, throughput), independence (lock-in risk). 5 different scenarios for Turkish SaaS: chatbot, RAG, content gen, legal, health. Right decision different in each.

Şükrü Yusuf KAYA

80 min read

6/24/2026

Advanced

Self-Host Karar Çerçevesi: OpenAI API vs Kendi GPU'n — Maliyet, Gizlilik, Performans, Bağımsızlık

🤔 İlk Kritik Karar — API mı, Kendi GPU'n mu?

Türkçe asistanını ürettin (Modül 14-15). Şimdi son adım: kullanıcılara nasıl ulaşacak? İki yol var.

Yol A: OpenAI API kullan. Tek satır kod, anında çalışır. Dakikada 100 istekten 100,000 isteğe ölçeklenir. Ama: per-token öder, veri OpenAI'a gider, model değişirse senin behavior değişir.

Yol B: Kendi GPU'nda self-host. Üzerinde tam kontrol. Veriler senin sunucunda kalır. Sabit maliyet. Ama: setup karmaşık, ölçeklendirme senin sorumluluğun, downtime senin başının ağrısı.

Doğru cevap: senaryona bağlı. Bu ders mühendislik gözüyle her boyutu (maliyet, gizlilik, performans, bağımsızlık) sayısal olarak değerlendiriyor. Türkçe SaaS'ler için 5 farklı use-case'te doğru kararı çıkartıyoruz. Mühendislik kararı romantik değildir — matematiksel, hassas, bağlamsaldır. 80 dakika sonra: 'API mı, self-host mu?' sorusuna rakamlarla cevap verecek hâle geleceksin.

Bu Derste Neler Var? (12 Bölüm)#

Kararın 4 Boyutu — Maliyet, Gizlilik, Performans, Bağımsızlık
Per-token Ekonomisi — OpenAI fiyat dönüşümü
Self-host Maliyet Matematiği — GPU saat ücreti, utilization, amortisman
Break-even Analizi — kaç istek/gün'de denk geliyor
Gizlilik Boyutu — KVKK, sektörel kısıt, veri lokasyonu
Latency Boyutu — API ms vs self-host ms
Throughput Boyutu — concurrent users kapasitesi
Vendor Lock-in Riski — model değişirse ne olur?
5 Türkçe SaaS Senaryosu — gerçek karar matrisi
Hibrit Stratejiler — bazen ikisini birlikte kullan
Karar Ağacı — adım adım seçim
Egzersizler ve Sezgi Soruları

1. Kararın 4 Boyutu#

Karar bir 'API ucuz mu, pahalı mı?' sorusu değil. 4 farklı boyut var, her biri kararı etkiliyor:

1.1 Maliyet Boyutu#

API: değişken, talep başına öde. Düşük talepte ucuz, yüksek talepte pahalı. Self-host: sabit + amortisman. Düşük talepte pahalı (GPU oturuyor), yüksek talepte ucuz.

→ Maliyet için kullanım hacmi belirleyici.

1.2 Gizlilik Boyutu#

API: veri OpenAI/Anthropic/Google sunucusuna gider. Şirketler 'veri training için kullanılmaz' diyor ama:

Log'lara giriyor (kanıtlanmamış 'sıfır retention')
Sızıntı riski (örn. Mart 2023 ChatGPT veri sızıntısı)
Veri Türkiye dışı (KVKK için ek prosedür)

Self-host: veri sunucundan çıkmaz.

→ Gizlilik için sektör + hassasiyet belirleyici.

1.3 Performans Boyutu#

API:

Latency: TÜrkiye'den OpenAI ~150-300ms network + processing
Throughput: rate limit (tier'a göre) — örn. Tier-1 GPT-4o 500 RPM
Reliability: %99.9 SLA (yaklaşık)

Self-host:

Latency: kendi sunucun, ~50-100ms
Throughput: kendi GPU kapasitesi (sınırsız değil ama dynamic)
Reliability: kendi uptime'ından sorumlusun

→ Performans için kullanıcı beklentisi belirleyici.

1.4 Bağımsızlık Boyutu (Lock-in)#

API:

OpenAI fiyat artırırsa → sen ödüyorsun.
OpenAI deprecation duyurursa → sen migrate ediyorsun.
OpenAI Türkiye'ye servis veremiyorsa (sanction risk, AB AI Act sorunu) → sen biten servisle uğraşıyorsun.
'GPT-5 lansman oldu, sen anlam veremiyorsun' — kontrol senin değil.

Self-host:

Model senin. Hep aynı. Değiştirmek istersen sen karar verirsin.
Türkiye'de sunucu, KVKK uyumu kolay.
Bağımsızlık vergisi: setup ve maintenance.

→ Bağımsızlık için stratejik öncelik belirleyici.

1.5 Boyutların ağırlıkları sektöre göre değişir#

Eğitim teknolojisi: maliyet > bağımsızlık > gizlilik > performans
Sağlık: gizlilik > bağımsızlık > maliyet > performans
Finans: gizlilik = performans > bağımsızlık > maliyet
E-ticaret chatbot: maliyet > performans > bağımsızlık > gizlilik
Hukuki danışmanlık: gizlilik > bağımsızlık > performans > maliyet

Karar tek formülle verilemez. Senin önceliklerini sayısallaştırman gerekir.

2-4. Maliyet Matematiği — Sayısal Karşılaştırma#

2.1 API maliyetini hesaplama#

OpenAI fiyat (2025 ortası):

GPT-4o: $2.50 / 1M input token,$ 10 / 1M output token
GPT-4o mini: $0.15 / 1M input,$ 0.60 / 1M output
o1: $15 / 1M input,$ 60 / 1M output

Claude (Anthropic):

Claude 3.5 Sonnet: $3 / 1M input,$ 15 / 1M output
Claude 3 Haiku: $0.25 / 1M input,$ 1.25 / 1M output

Türkçe için tokenization vergisi (Modül 6.9): aynı bilgi İngilizce'den ~1.5-2× token. Yani GPT-4o fiili maliyet Türkçe'de etkin $4-5 / 1M input.

2.2 Per-conversation maliyet hesabı#

Örnek: Türkçe sohbet botu

Ortalama soru: 100 token (~70 Türkçe kelime)
Sistem mesajı + RAG context: 1500 token
Cevap: 300 token

GPT-4o için:

Input: 1600 token × $2.50/1M =$ 0.004
Output: 300 token × $10/1M =$ 0.003
Per-conversation: $0.007 (~25 kuruş)

GPT-4o mini için:

Per-conversation: $0.00045 (~1.5 kuruş, 15× ucuz)

2.3 Aylık API maliyet projeksiyonu#

10K conversation/gün (TR SaaS orta ölçek):

GPT-4o: 10K × 30 × $0.007 = **$ 2,100/ay**
GPT-4o mini: 10K × 30 × $0.00045 = **$ 135/ay**

100K conversation/gün (TR SaaS büyük ölçek):

GPT-4o: $21,000/ay
GPT-4o mini: $1,350/ay

3.1 Self-host maliyet hesabı#

Hardware: 1× NVIDIA H100 80GB.

Cloud (spot): $2.50/saat
Cloud (on-demand): $4-8/saat
On-premise (3 yıl amortisman): $25K satın alma / (3 yıl × 8760 saat) = ~$ 0.95/saat (+ elektrik + bandwidth + bakım ~$1.50/saat efektif)

Aylık: spot

1,800, on-demand

3,600, on-premise efektif $1,100.

Throughput: Llama-3-8B + vLLM + H100:

~3,000 token/saniye (tek GPU, mixed throughput)
Aylık: 3,000 × 60 × 60 × 24 × 30 = 7.8B token/ay

Yani 1 H100 ile aylık 7.8B token üretebilirsin.

3.2 Self-host conversation kapasitesi#

Conversation başına ~400 token (input + output ortalama):

7.8B / 400 = 19.5M conversation/ay (teorik max)
Pratik (utilization %50-60): ~10M conversation/ay

10K/gün TR SaaS: 300K conversation/ay → utilization %3 → çok düşük → self-host mantıksız. 100K/gün: 3M/ay → utilization %30 → orta. 300K/gün: 9M/ay → utilization %90 → self-host çok mantıklı.

4.1 Break-even analizi#

Hangi noktada self-host API'den ucuzlaşıyor?

GPT-4o ($2,100/ay 10K conversation, lineer artar):

10K/gün: API $2,100, self-host (1 H100)$ 1,800 → self-host kıl payı ucuz
50K/gün: API $10,500, self-host$ 1,800 → self-host 5.8× ucuz
100K/gün: API $21,000, self-host$ 1,800 (kapasite yeter) → self-host 11.7× ucuz

GPT-4o mini ile karşılaştırma:

10K/gün: API $135, self-host$ 1,800 → API 13× ucuz
100K/gün: API $1,350, self-host$ 1,800 → API biraz ucuz
500K/gün: API $6,750, self-host (2 H100)$ 3,600 → self-host 2× ucuz

Sonuç: GPT-4o ile karşılaştırırken break-even ~5-10K conversation/gün. GPT-4o mini ile karşılaştırırken ~200-500K conversation/gün.

Türkçe'de fiili break-even daha düşük (tokenization vergisi).

5-7. Gizlilik, Latency, Throughput#

5.1 KVKK ve sektörel kısıtlar#

6698 sayılı KVKK için kritik maddeler:

Madde 9: Yurt dışına veri aktarımı için açık rıza veya yeterli koruma gerekir.
Madde 12: Veri güvenliği önlemleri zorunlu.
Madde 11: Veri sahibinin silme/düzeltme hakları.

API kullanımının zorlukları:

OpenAI ABD sunucularında. AB-ABD veri akışı için 'Data Processing Addendum' (DPA) imzalanmalı.
Audit log: OpenAI'a ne gitti, ne döndü — sen tüm bunları log etmen gerekir.
Silme hakkı: kullanıcı 'tüm verimi silmek istiyorum' dediğinde, OpenAI'da tutulan log'lara müdahale edemezsin.

Sektörel ekstra kısıtlar:

Sağlık: HİMSS Türkiye standardı, hasta verisi yurt dışı çıkamaz pratikte.
Finans: BDDK düzenlemeleri, bankacılık verisi sınırlı.
Hukuk: avukat-müvekkil gizliliği, OpenAI dahil 3. tarafa veri vermek riskli.
Eğitim: çocuk verileri (8 yaş altı) için özel kısıtlar.

5.2 Self-host gizlilik avantajı#

Veri Türkiye'de sunucuda (örn: AWS Frankfurt veya Türk Telekom Bulut)
Audit log tam kontrolünde
Silme talebi: log'larını sen yönetiyorsun
Compliance documentation kolayca üretilir

6.1 Latency karşılaştırma#

Ortalama latency (Türkiye'den):

API:

TTFB (Time To First Byte): 200-500ms
Tam cevap (300 token): 1-3 saniye
Network gecikmesi: ~100-200ms (Türkiye → ABD round trip)

Self-host (vLLM, H100, Llama-3-8B, AWS Frankfurt):

TTFB: 80-150ms
Tam cevap (300 token): 0.8-1.5 saniye
Network gecikmesi: ~30-50ms (Türkiye → Frankfurt)

Self-host (Türkiye-içi datacenter, on-premise):

TTFB: 30-80ms
Tam cevap: 0.6-1.2 saniye
Network gecikmesi: <20ms

→ Self-host genelde 2-3× daha hızlı, özellikle Türkiye-içi.

7.1 Throughput karşılaştırma#

Concurrent users (eşzamanlı istek):

API:

OpenAI Tier-1 GPT-4o: 500 RPM
Tier-2 (ödenmiş $50+): 5,000 RPM
Tier-5 (enterprise): 30,000 RPM
Burst capacity sınırlı (rate limit), ekstra kapasite için 'satın al'

Self-host (vLLM, H100, Llama-3-8B):

~50-100 concurrent users (batched)
Burst capacity: 200 user (kısa süre)
Daha fazla için: ekstra GPU ekle (lineer ölçeklendirme)

7.2 Önemli not: 'tier upgrade' gecikme#

OpenAI tier upgrade için en az 30 gün kullanım geçmişi ister. Yani aniden ölçeklenmen lazım olursa (örn. viral oldun), API tier upgrade hemen olmuyor. Self-host'ta GPU ekleme dakikalar (cloud) veya günler (on-prem).

8-9. Türkçe SaaS 5 Senaryosunda Doğru Karar#

9.1 Senaryo A: Türkçe E-ticaret Chatbot#

Profil: 5K conversation/gün, kullanıcı sohbeti (genel ürün soruları), gizlilik orta.

Karar: API (GPT-4o mini).

5K × 30 × $0.00045 =$ 67.5/ay
Self-host (1 H100): $1,800/ay
Maliyet farkı 27× — net API kazanır
Gizlilik kısıtı yok (ürün soruları PII içermiyor)

9.2 Senaryo B: Türkçe RAG (Bilgi Tabanı + Sorgulama)#

Profil: 20K conversation/gün, şirket içi dokümanlar (orta düzey hassas), iç kullanım.

Karar: Self-host (Llama-3-8B + Modül 15 capstone DPO).

API: ~$1,800-3,000/ay (GPT-4o mini ile)
Self-host: $1,800/ay
Maliyet ben benzer
Gizlilik avantajı belirleyici → şirket içi dokümanlar OpenAI'a gitmiyor
Kontrol: model davranışını şirket kültürüne göre fine-tune edebilirsin

9.3 Senaryo C: Türkçe İçerik Üretimi (Blog, Sosyal Medya)#

Profil: 1K uzun cevap/gün, yaratıcılık gerekli, gizlilik düşük.

Karar: API (Claude 3.5 Sonnet).

Claude yaratıcı yazma çok güçlü
Per-conversation $0.03-0.05 (uzun output)
1K × 30 × $0.04 =$ 1,200/ay
Self-host kalitesi yetersiz (yaratıcı writing API en üst seviyede)
Gizlilik düşük → veri sızıntısı kabul edilebilir

9.4 Senaryo D: Türkçe Hukuki Danışmanlık#

Profil: 500 conversation/gün, müvekkil bilgileri (çok hassas), avukat-müvekkil gizliliği.

Karar: Self-host (zorunlu).

API kullanmak avukat-müvekkil gizliliği ihlali (3. tarafa veri)
Türkiye Barolar Birliği müvekkil verisinin yurt dışı çıkmasını sınırlar
Self-host: $1,800/ay sabit. 500 × 30 = 15K conversation/ay, kapasitenin altında, ama gizlilik kazanır
Belki fine-tune ile Türk hukuk corpus'una optimize

9.5 Senaryo E: Türkçe Sağlık Asistanı (Pre-clinical)#

Profil: 2K conversation/gün, hasta semptom sorgulamaları, KVKK + HIPAA-tarzı kısıtlar.

Karar: Self-host + ek özen.

KVKK sağlık verisi yurt dışı çıkamaz
HİMSS Türkiye standartları self-host'a yönlendiriyor
2K × 30 = 60K conversation/ay, 1 H100 yeter
Maliyet API'den ucuz olsa bile, gizlilik tek başına self-host'u zorunlu kılıyor
Tıbbi disclaimer + uzman gözetim katmanı şart

8.1 Hibrit Strateji — En Akıllı Yaklaşım#

Çoğu olgun TR SaaS hibrit kullanıyor:

Tier 1 (basit, ucuz): GPT-4o mini API — sık sohbet, basit soru-cevap. Tier 2 (kompleks): Self-host Llama-3 → karmaşık queries. Tier 3 (hassas): Self-host fine-tuned model → KVKK hassas konular.

Router: kullanıcı sorusunu bir küçük classifier (8B parametreli model) önce sınıflıyor:

class DemoRouter:
    def classify(self, query):
        # Hızlı sınıflama (10ms)
        if is_simple_chat(query):
            return 'gpt4o-mini'  # API
        elif is_complex_question(query):
            return 'llama3-self-host'
        elif has_sensitive_data(query):
            return 'llama3-finetuned-self-host'

Maliyet ve gizliliği optimize eder.

11-12. Karar Ağacı + Egzersizler#

11.1 Adım adım karar ağacı#

[BAŞLA]
  |
  v
[Q1: Hassas veri mi işliyorsun?]
  Evet (KVKK/sağlık/hukuk/finans) → Self-host (zorunlu, lokasyon Türkiye)
  Hayır → Q2'ye geç
  |
  v
[Q2: Günlük conversation hacmin?]
  <5K → API (ekonomik)
  5K-50K → Q3'e geç
  >50K → Self-host (maliyet kazanır)
  |
  v
[Q3: Türkçe kalite kritik mi?]
  Evet (yaratıcı, hukuki, eğitim) → API (Claude/GPT-4o)
  Hayır (genel sohbet, basit) → Self-host (Llama-3-8B yeter)
  |
  v
[Q4: Model davranışı kontrolü gerekli mi?]
  Evet (özel persona, sektör-spesifik) → Self-host (fine-tune zaten yaptın)
  Hayır → API
  |
  v
[Q5: Hibrit imkanı var mı?]
  Evet → İki tier kur (basit/komplekx)
  Hayır → Tek seçim

11.2 Pratik öneri (çoğu TR startup için)#

0-3 ay (MVP): API kullan. Hızla başla, ürün-pazar uyumunu test et.
3-6 ay (büyüme): hacim 10K/gün'ü geçince hibrit kur. API + self-host.
6-12 ay (olgunlaşma): 50K/gün geçince ağırlıklı self-host. API sadece edge case'ler.

12.1 Egzersizler#

E1. Türkçe e-ticaret chatbot, 30K conversation/gün, ürün arama soruları. API vs self-host kararı için 4 boyutu (maliyet, gizlilik, performans, bağımsızlık) sayısallaştır ve karar ver.

E2. Self-host break-even noktasını farklı modeller için hesapla: Llama-3-8B vs Llama-3-70B vs Llama-3-405B. Karşılaştırılan API: GPT-4o.

E3. Avrupa Birliği AI Act 2024 uyumu için 'high-risk AI' (sağlık, eğitim) kategorisindeki bir Türkçe LLM sistemi. API mı self-host mu? Hukuki gerekçelerle.

E4. Hibrit strateji: 100K conversation/gün TR SaaS. %70 basit chat, %25 RAG, %5 hassas. Her tier için API mı self-host mu? Total maliyet hesabı.

E5. Vendor lock-in senaryosu: GPT-4o üzerinde 6 ay önemli fine-tune yaptın (system prompts, few-shot examples optimize edildi). OpenAI Pricing 3× artırır. Self-host'a geçmek için kaç ay gerekir, ne yatırım?

E6. Türkçe sağlık asistanı: 2K conversation/gün. KVKK + tıbbi disclaimer gereksinimleri. Self-host setup detayını yaz — hangi GPU, hangi DC lokasyonu, hangi compliance dokümanlar.

E7. Latency hesabı: kullanıcı 'TTFB <500ms' istiyor. API (Frankfurt, OpenAI) vs Self-host (Türkiye DC) farkını çalış. Hangisi gereksinimi karşılar?

E8. Self-host'un 'gizli maliyetleri' nedir? GPU saat ücreti dışında hangi giderler var? Ay sonunda gerçek maliyet GPU + ne kadar?

E9. Türkçe SaaS bir startup. İlk 3 ay MVP. API mı self-host mu başla? Hangi gerekçe?

E10. API kullanırken 'fallback strategy' nasıl tasarlanır? OpenAI down olduğunda ne yapar sistemın?

✅ Ders 16.1 Özeti — Self-Host Karar Çerçevesi

Self-host vs API kararı bir 'ucuz vs pahalı' sorusu değil — 4 boyutlu mühendislik kararı: maliyet, gizlilik, performans, bağımsızlık. Türkçe için maliyet break-even API hacim (GPT-4o için ~5-10K conv/gün, GPT-4o mini için ~200-500K). 5 senaryoda doğru karar farklı: e-ticaret (API), RAG (self-host), içerik üretim (API), hukuki (self-host zorunlu), sağlık (self-host zorunlu). Hibrit strateji çoğu olgun TR SaaS'in seçimi. MVP aşaması API, ölçek büyürse self-host. TCO 2-3× GPU saat ücreti — gizli maliyetleri hesaba kat. Sonraki ders: kararını verdin, şimdi self-host nasıl kurulur — vLLM, paged attention, production-grade serving.

Sonraki Ders: vLLM Production Setup#

Ders 16.2'de karar verildi, şimdi inşaat. vLLM (UC Berkeley + Anyscale), modern LLM serving'in fiili standardı. Paged attention, continuous batching, OpenAI-compatible API. Kubernetes deployment, monitoring, autoscaling, SLA garantileri. Hardware (H100 vs A100 vs RTX 4090) seçimi. Türkçe Llama-3 production deployment'ı baştan sona.

Frequently Asked Questions

Important question. API prices truly dropped 50-100× in 2024-2025. This **shifted break-even point upward** — i.e. volume where self-host wins its advantage increased. Comparison with GPT-4o mini ($0.15/1M input + $0.60/1M output): - Self-host break-even ~200-500K conversations/day - Hard volume for most Turkish SaaS to reach **But**: cost is still **one of four dimensions** of decision. Other dimensions (privacy, performance, independence) still favor self-host: - Health, legal, finance: privacy wins - Low latency in Turkey: performance wins - EU AI Act 'high-risk' category: compliance wins - Lock-in concern: independence wins **Conclusion**: cost dimension weakened, but self-host still valuable on other three dimensions. Also: API prices may rise in future (if competition decreases, regulation comes).

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

AI Governance and EU AI Act Compliance

AI Governance is the corporate framework that ensures AI systems — from design to use — meet ethical, safety, transparency, explainability and legal-compliance requirements (EU AI Act, GDPR/KVKK, ISO 42001).

Bu Derste Neler Var? (12 Bölüm)#

1. Kararın 4 Boyutu#

1.1 Maliyet Boyutu#

1.2 Gizlilik Boyutu#

1.3 Performans Boyutu#

1.4 Bağımsızlık Boyutu (Lock-in)#

1.5 Boyutların ağırlıkları sektöre göre değişir#

2-4. Maliyet Matematiği — Sayısal Karşılaştırma#

2.1 API maliyetini hesaplama#

2.2 Per-conversation maliyet hesabı#

2.3 Aylık API maliyet projeksiyonu#

3.1 Self-host maliyet hesabı#

3.2 Self-host conversation kapasitesi#

4.1 Break-even analizi#

5-7. Gizlilik, Latency, Throughput#

5.1 KVKK ve sektörel kısıtlar#

5.2 Self-host gizlilik avantajı#

6.1 Latency karşılaştırma#

7.1 Throughput karşılaştırma#

7.2 Önemli not: 'tier upgrade' gecikme#

8-9. Türkçe SaaS 5 Senaryosunda Doğru Karar#

9.1 Senaryo A: Türkçe E-ticaret Chatbot#

9.2 Senaryo B: Türkçe RAG (Bilgi Tabanı + Sorgulama)#

9.3 Senaryo C: Türkçe İçerik Üretimi (Blog, Sosyal Medya)#

9.4 Senaryo D: Türkçe Hukuki Danışmanlık#

9.5 Senaryo E: Türkçe Sağlık Asistanı (Pre-clinical)#

8.1 Hibrit Strateji — En Akıllı Yaklaşım#

11-12. Karar Ağacı + Egzersizler#

11.1 Adım adım karar ağacı#

11.2 Pratik öneri (çoğu TR startup için)#

12.1 Egzersizler#

Sonraki Ders: vLLM Production Setup#

Frequently Asked Questions

OpenAI keeps dropping prices (GPT-4 → GPT-4o → GPT-4o mini, $30/1M → $0.15/1M). Is self-host still sensible?

If my GPU sits idle in self-host, I'm losing money. Opposite: API I only pay for what I use. Why is self-host sensible anyway?

Which cloud provider in Turkey best for self-host? Is AWS Frankfurt enough?

I don't have self-host team. Finding/training engineer will take time. What do I do in this process?

When switching API providers, what stays the same and what changes?

Yorumlar & Soru-Cevap

Related Content

Who Is an LLM Engineer? The AI Engineering Career Ladder from Junior to Staff

Course Philosophy: Why This Path, Why This Order — The Skeleton of an 8-Month Curriculum

Workshop Setup: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight

AI Governance and EU AI Act Compliance