Self-Hosted LLM mi, API mı? KVKK + BDDK + Maliyet Matrisi

1. Giriş: Yanlış Sorulan Soru

"Self-hosted mı, API mı?" sorusu, Türk kurumsal AI karar vericilerinin 2025-2026 boyunca en çok cevap aradığı sorulardan biri. Ancak bu soru genelde yanlış çerçeveleme ile sorulur — sanki tek bir doğru cevap varmış gibi.

Tanım

Self-Hosted LLM: Açık kaynak veya kurumsal lisanslı bir büyük dil modelinin (Llama 3.3 70B, Trendyol-LLM-70B-v3, vb.) şirketin kendi sunucularında ya da kendi tahsis ettiği bulut GPU instance'larında çalıştırılması; tüm prompt + cevap + metadata'nın kurumsal kontrolde tutulması.; Ayrıca: On-prem LLM, Private LLM; Wikidata: Q115305900

Doğru çerçeveleme şu: "Hangi workload için self-host, hangi workload için API, hangi workload için hibrit?" Bu yazı bu üç-yollu karar matrisinin Türk kurumsal kullanım koşullarındaki tam haritasını çiziyor.

2. Konunun Anatomisi: 4 Boyutlu Karar Çerçevesi

Self-host vs API kararı dört bağımsız boyutta verilir — her birinin kendi başına zorunlu kıldığı bir cevap olabilir:

2.1. Token Volume Boyutu

Aylık token tüketiminize göre maliyet hesabı tamamen değişir.

<10M token/ay (KOBİ chatbot): API her zaman ucuz. Self-host overhead'i ödenmez.
10-100M token/ay (orta ölçek): API hâlâ önde, hibrit düşünülebilir.
100-500M token/ay (büyük müşteri hizmetleri): Hibrit ideal — yüksek hacim açık kaynak self-host, yüksek kalite + nadir kullanım API.
>500M token/ay (kurumsal masif kullanım): Self-host maliyet açısından kazanır; ama operational maturity şart.

2.2. Veri Hassasiyeti Boyutu

Prompt + cevap içinde dolaşan verinin regülatif sınıfı belirleyici.

Public / non-personal veri: API serbestçe kullanılabilir.
Şirket-içi commercial veri (iç eğitim, dahili wiki): Şart değil ama hibrit tavsiye edilir.
KVKK kapsamında kişisel veri: Cross-border transfer riski; ya KVKK anonimleştirme ya da Türkiye-AB hosted çözüm gerekli.
BDDK kapsamı (finans): Bankacılıkta AI tebliği gereği veri yerleşimi + explainability zorunlu — self-host'a doğru ciddi baskı.
Sağlık verisi (Sağlık Bakanlığı + KVKK): HBYS verisi yurt dışına gönderilemez — self-host zorunlu.
Savunma teknik verisi (ITAR / EAR / SSB): Self-host zorunlu; tercihen TÜBİTAK veya T3 onaylı altyapı.

2.3. Engineering Kapasitesi Boyutu

Self-host'un sürdürülebilirliği, ekibin operational maturity'sine bağlı.

AI/ML engineer yok: Self-host kötü fikir, API'de kalın.
1 AI engineer: 7B model + tek GPU + vLLM ile sınırlı self-host mümkün.
3+ AI engineer + DevOps: 70B multi-GPU cluster + observability + eval harness ile production self-host mümkün.
AI Platform takımı (5+ kişi): Tam stratejik self-host + custom fine-tuning kapasitesi.

2.4. Latency / SLA Boyutu

Üretim SLA gereksinimleri kararı etkiler.

<1s p95 zorunlu (real-time agent): Self-host avantajı — network jitter yok, batch optimization tam.
<3s p95 (genel chat): API yeterli.
<10s, batch tolere edilebilir: API + cache + retry yeterli.

3. Karşılaştırma: Self-Host vs API vs Hibrit

Self-Hosted LLM vs API vs Hibrit Karşılaştırması (2026 Mayıs)
Boyut	Self-Host	API (OpenAI/Anthropic)	Hibrit
Aylık Min Maliyet	$3K-25K	$50-200	$2K-15K
KVKK Uyumu	Tam kontrol	Zor + ek work	Workload bazlı
BDDK Uyumu	Direkt	Yüksek uyum yükü	Mümkün
Latency p95	Düşük + öngörülebilir	Orta + jitter	Karışık
Engineering Yükü	Yüksek	Düşük	Orta
Model Kalitesi	İyi (70B)	En iyi (GPT-5/Opus)	Esnek seçim
Veri Yerleşimi	%100 yerli	API sağlayıcı	Workload bazlı
Token Volume Eşiği	>500M/gün	<100M/gün	100-500M/gün
Maintenance	Yüksek (3 aylık model güncelleme)	Yok	Orta
Vendor Lock-in	Yok	Var	Az

3.1. GPU Cloud Maliyeti: 2026 Mayıs Gerçeği

GPU cloud maliyeti son 12 ayda ciddi şekilde değişti; 2026 Mayıs itibarıyla pazar fiyatları:

GPU Cloud Saatlik Maliyetleri (Spot + On-Demand, 2026 Mayıs)
GPU	Saatlik (On-Demand)	Saatlik (Spot)	VRAM	Birincil Sağlayıcı
NVIDIA H100 SXM	$4.50	$2.20	80 GB	AWS, GCP, Lambda, RunPod
NVIDIA H100 PCIe	$3.80	$1.80	80 GB	RunPod, Vast.ai
NVIDIA H200	$5.00	$2.80	141 GB	CoreWeave, Lambda, Crusoe
NVIDIA B200	$7-9	$4-5	192 GB	Limited GA (CoreWeave, Lambda)
NVIDIA A100 80GB	$2.20	$1.10	80 GB	Geniş erişim
NVIDIA L4	$0.80	$0.40	24 GB	GCP, AWS
NVIDIA L40S	$1.40	$0.70	48 GB	Yaygın

Yorum. 2024'te $8/saat olan H100, agresif yarış nedeniyle 2026'da $4.50'ya indi. B200 hâlâ premium ama 2027 Q1'de $5-6 bandına inecek tahmin ediliyor. Spot fiyatlar üretim için riskli — preemption olabilir; öngörülebilir SLA için on-demand tercih edilmeli.

3.2. Quantization Etkisi: Karar Matrisini Değiştiren Boyut

Quantization, model ağırlıklarını daha az bit'e sıkıştırarak VRAM'i ve hesap maliyetini düşürür. 2026 itibarıyla production-ready quantization seçenekleri:

FP16 (baseline): 70B → 140 GB VRAM. Kalite kaybı yok.
INT8: 70B → 70 GB VRAM. Kalite kaybı genelde <1%.
AWQ Q4 / GPTQ Q4: 70B → 35 GB VRAM. Kalite kaybı %2-3.
GGUF Q5_K_M: 70B → ~45 GB VRAM. Hobi/Edge için iyi; production'da AWQ tercih edilir.

3.3. Throughput ve Birim Maliyet

70B model AWQ Q4 + 2xH200 + vLLM senaryosunda gerçek throughput:

Tek istek (concurrency 1): ~50 token/s
Batch 8: ~280 token/s aggregate
Batch 16: ~480 token/s aggregate
Batch 32: ~720 token/s aggregate (memory pressure başlar)

Birim maliyet hesabı. 2xH200 on-demand = $10/saat = $7200/ay (full utilization). Tipik kurumsal batch 16 throughput → 480 token/s × 3600 = 1.728M token/saat × 720 saat (ay) = ~1.24 milyar token/ay kapasite. Token başına self-host birim maliyet: $7200 / 1.24B = $5.81 / 1M token (full utilization).

OpenAI GPT-5 fiyatı 2026 Mayıs: $5 / 1M input + $15 / 1M output token. Self-host birim maliyet (full util.) ile GPT-5 input cost karşılaştırılabilir — ancak GPT-5 kalitesi farklı seviye.

Claude Opus 4.7 fiyatı: $15 / 1M input + $75 / 1M output. Self-host avantajı burada belirginleşir — eğer Opus seviyesinde kalite gerekmiyorsa.

4. Pratik Uygulama: Break-Even Hesabı

Şimdi gerçek bir hesap üzerinden gidelim — Türk orta-büyük şirket senaryosu.

4.1. Senaryo: Türk Bankası Müşteri Hizmetleri RAG

Parametreler:

Günlük 12M token (in + out toplam) — orta ölçek banka chat hacmi
%60 input / %40 output dağılımı
p95 latency hedefi: 3s
KVKK + BDDK uyumu zorunlu

API maliyeti (GPT-5 üzerinden hesap):

12M token/gün × 30 = 360M token/ay
Input: 216M × $5 = $1,080/ay
Output: 144M × $15 = $2,160/ay
Toplam: $3,240/ay
Yıllık: ~$39K

Self-host maliyeti (70B AWQ + 2xH200):

GPU: 2xH200 on-demand = $7,200/ay
Aylık 1.24B token kapasite (full util.)
Engineering: 1 senior AI engineer $5,500/ay
Observability + monitoring: $500/ay
Security audit + KVKK uyum: $300/ay
Toplam: $13,500/ay
Yıllık: ~$162K

Sonuç. Bu senaryoda API self-host'tan 4x daha ucuz — saf maliyet kararı API. Ancak KVKK + BDDK uyumu için her API çağrısında ek ~$80K/yıl audit + danışmanlık + cross-border transfer dokümantasyon yükü var. Bu eklendiğinde:

API toplam: $39K + $80K = $119K/yıl
Self-host toplam: $162K/yıl (KVKK uyum içeride dahil)

Yine self-host daha pahalı; ama BDDK denetim risk skoru çok düşük. Yönetim kararı: kabul edilebilir maliyet primi karşılığında risk azaltma.

4.2. Break-Even Hesabı: Hangi Token Hacminde Self-Host Kazanır?

Aynı hesabı token hacmine göre genelleştirelim:

Token Hacmi vs Aylık Maliyet (Türk Bankası Senaryosu)
Aylık Token	API Maliyeti	Self-Host (2xH200)	Self-Host (4xH200)	Kazanan
100M	$900	$13.5K	$24K	API
360M	$3.2K	$13.5K	$24K	API
1.2B	$10.8K	$13.5K	$24K	API (marjinal)
3B	$27K	$22K (4xH200)	$22K	Self-Host
6B	$54K	Kapasite yetmez	$24K	Self-Host
11B	$99K	Kapasite yetmez	$36K (6xH200)	Self-Host
30B	$270K	Kapasite yetmez	$120K	Self-Host

Yorum. Saf API maliyet karşılaştırmasında break-even ~11 milyar token/ay = ~500M token/gün civarında. Bu eşiğin altında API; üstünde self-host kazanır.

4.3. Gizli Maliyetler: "Self-Host Ücretsizdir" Yanılgısı

Self-Host Hidden Cost Listesi

Hesap dışı bırakılan ama her ay ödenen maliyetler:

(1) Engineering operations. Senior AI engineer (Türkiye, 2026): $5-7K/ay; junior $2.5-3.5K/ay. Tek AI engineer'la self-host kritik kişi riski üretir (engineer ayrılırsa sistem bakımı yapılamaz).

(2) Observability stack. Langfuse self-hosted ($150/ay infra), Prometheus + Grafana ($100/ay), log retention ($200/ay) = ~$450/ay.

(3) Security + compliance audit. Yıllık $5-15K dış güvenlik + KVKK audit; aylık ortalama $1K.

(4) Model güncelleme + re-deployment. Her 3 ayda bir model versiyonu yükseltme (~$5K mühendislik + GPU test saatleri) = $1.6K/ay amortize.

(5) GPU utilization kaybı. Tipik production utilization %60-75 (tam değil); yani $7200/ay GPU'nun gerçek birim maliyeti $9,500-12,000/ay efektif.

Bu beş kalemin toplamı: ek $750-3,000/ay — küçük ölçekte self-host'un teorik maliyet avantajını silebilir.

5. Performans / Benchmark: Self-Host Kalite Karşılaştırması

5.1. Kalite Seviyesi: Self-Host Modeller vs API Modeller (Mayıs 2026)

LLM Kalite Karşılaştırması (Türkçe, 2026 Mayıs)
Model	Türkçe Skor	Erişim	Kalite Tier
GPT-5	~78	API	S
Claude Opus 4.7	~76	API	S
Gemini 3.1 Pro	~74	API	A+
GPT-4o-mini	~72	API	A
Trendyol-LLM-70B-v3	69.7	Self-host	A
Cosmos-Llama-1-70B	68.0	Self-host	A
Llama-3.3-70B (vanilla)	64.2	Self-host	B+
DeepSeek V3.2	~67	Self-host (671B MoE!)	A
Qwen 3.5-72B	~66	Self-host	A-
Claude Haiku 4.5	~63	API	B+
Trendyol-LLM-7B-v3	51.4	Self-host	B
Kumru AI-7.4B	47.1	Self-host	C+

Pratik gözlem. Self-host ile yakalanabilen tavan, Türkçe için yaklaşık GPT-4o-mini seviyesi. GPT-5 / Claude Opus 4.7 ile yarışmak için ya fine-tuning + RLHF investment ya da hibrit (kritik sorular API, gerisi self-host) gerekli.

5.2. Latency Karşılaştırması

Latency, kullanıcı deneyimi açısından maliyet kadar önemli:

API (GPT-5): p50 ~1.4s, p95 ~3.8s (Avrupa endpoint). Türkiye'den +50-80ms.
API (Claude Opus 4.7): p50 ~1.8s, p95 ~4.5s.
Self-host (Trendyol-70B AWQ + 2xH200, batch 8): p50 ~1.1s, p95 ~2.6s.
Self-host (Trendyol-7B + L4, batch 1): p50 ~0.6s, p95 ~1.4s.

Yorum. Self-host latency avantajı lokal deployment + network jitter yokluğu sayesinde belirgin. Real-time agent senaryolarında bu fark kritik olabilir.

6. Türkiye'ye Özgü Açı: KVKK, BDDK ve AI Sovereignty

6.1. KVKK 9. Madde: Cross-Border Transfer Riski

KVKK 9. madde, kişisel verinin yurt dışına aktarılmasını (a) açık rıza veya (b) yeterli ülke listesi koşuluyla kısıtlar. OpenAI / Anthropic gibi ABD merkezli API'lere kişisel veri içeren prompt gönderildiğinde:

Cross-border transfer doğar. Türkiye → ABD.
ABD yeterli ülke statüsünde değil (KVKK kurulu tarafından).
Dolayısıyla veri sahibinden açık rıza alınması gerekir — pratik olarak mümkün değil.

Çözüm yolları:

A. Anonimleştirme katmanı: Prompt'a giden tüm kişisel veri PII detection ile maskelenir. Pratik ama hatalı çıkış yapma riski var.
B. EU endpoint kullanımı: Bazı API sağlayıcıları (Anthropic AWS Bedrock EU, OpenAI Azure EU) Avrupa data residency veriyor. KVKK kurulu AB'yi yeterli sayar — bu çözüm geçerli.
C. Self-host (Türkiye): En temiz çözüm; kişisel veri sınırı hiç geçmez.

6.2. BDDK 2024 Yapay Zeka Tebliği

BDDK, 2024 Eylül'de yayımladığı "Bankacılıkta Yapay Zeka ve Makine Öğrenmesi Yönetim Tebliği" ile şu zorunlulukları getirdi:

Veri yerleşimi. Banka müşteri verilerinin işlendiği AI sistemleri Türkiye veya yeterli ülkede hosted olmalı.
Explainability. Karar verici AI sistemlerinde insan-anlayabilir gerekçe sunma yükümlülüğü.
Üçüncü taraf bağımlılığı. Tüm AI sağlayıcılarının (model + altyapı) explicit kontrat + risk değerlendirmesi.
Audit log. Her AI kararı için 7 yıllık denetim izi.

Pratik etki. Türk bankalarının çoğu, OpenAI/Anthropic API kullanmak için ek $50-150K yıllık compliance overhead çıkarıyor; self-host'a geçmek bu yükü ciddi azaltıyor.

6.3. Savunma Sanayi: ITAR / EAR / SSB Kısıtları

Savunma sanayinde teknik veri kategorisine giren her şey yurt dışı bulut hizmetlerine gönderilemez:

Silah sistemi specs
Taktik operasyon planlaması
İnsansız hava aracı telemetry
Komuta-kontrol diyalogu
Askeri eğitim materyali

Bu kategoride self-host zorunlu; tercihen TÜBİTAK BİLGEM veya T3 AI Baykar onaylı altyapı.

6.4. AI Sovereignty Stratejisi: TÜBİTAK ve T3 Yaklaşımı

AI sovereignty (AI egemenliği) kavramı, ulusal güvenlik + ekonomik bağımsızlık çerçevesinde, kritik AI yeteneklerinin yabancı vendor'lara bağımlı olmamasını ifade eder. Türkiye'de 2025-2026 döneminde:

TÜBİTAK BİLGEM: Sıfırdan eğitilmiş Türkçe LLM (bilgem-tr-llm-13b, 70b) + Türk GPU cluster.
T3 AI Baykar: Savunma sanayi spesifik fine-tune'lar + ITAR/EAR uyumlu lisans.
TÜBİTAK ULAKBİM: GPU compute infrastructure (yerli akademik + kamu).

Bu üç ayak, stratejik sektörlerin self-host'a yönelmesini kolaylaştırıyor.

7. Vaka Çalışmaları: Türk Sektörel Kararlar

Vaka 1 — Türk Bankası: BDDK Uyumu İçin Self-Host

Şirket. Top-5 Türk özel bankası (anonim, ~18M aktif müşteri).

Problem. İç eğitim chatbot + bayi destek sistemi + müşteri hizmetleri özetleme için aylık ~9 milyar token tüketimi planlanıyor. OpenAI API tahmini maliyet: $95K/ay; ama BDDK 2024 tebliği gereği veri yerleşimi + explainability + 7 yıllık audit log zorunluluğu — API ile uyum yükü çok yüksek.

Karar süreci. 6 haftalık değerlendirme:

API + KVKK anonimleştirme katmanı: teknik mümkün ama BDDK denetim riski yüksek.
Azure OpenAI EU endpoint: KVKK için OK, ama BDDK "Türkiye veri yerleşimi" tercihiyle çelişir.
Self-host: Trendyol-LLM-70B-v3 + Cosmos-Llama-1-70B hibrit; Ankara DC, 8xH100 cluster.

Çözüm. Self-host'a karar verildi. Donanım yatırımı $650K (8xH100 + networking + storage); aylık operational $18K (engineering, observability, security audit dahil). Toplam yıllık maliyet $866K; API ile $1.14M (95K × 12 + uyum yükü) — ROI 24 ayda pozitif.

Sonuç. 18,000 bayi + 28,000 iç çalışan kullanıcı. Müşteri hizmetleri ortalama yanıt süresi 12 dk → 3 dk. BDDK 2025 denetim raporunda "AI compliance" maddesinde tam puan. Marka için stratejik kazanç: "yerli yetkinlik" mesajı.

Vaka 2 — Sağlık Grubu: HBYS Verisi + KVKK + Self-Host Zorunluluğu

Şirket. 14 hastane + 23 poliklinik grubu (anonim, ~1.2M yıllık hasta görüşmesi).

Problem. Doktor görüşme notlarını ses kaydından otomatik özetleyip HBYS'ye yapılandırılmış kayıt olarak gönderecek sistem isteniyor. Token volume aylık ~200M (orta seviye). Kısıt: HBYS verisi yurt dışına asla gönderilemez (KVKK + Sağlık Bakanlığı Hasta Veri Yönetmeliği).

Karar süreci.

OpenAI API: KVKK + Sağlık Bakanlığı çift kısıt — direkt elendi.
Azure OpenAI EU: KVKK için OK ama Sağlık Bakanlığı yönetmeliği "Türkiye sınırları içinde" diyor — uyum zor.
Self-host: Tek geçerli yol.

Çözüm. Her hastaneye lokal RTX 4090 24GB workstation + Kumru AI-7.4B (4-bit quantize, 4.5GB VRAM) deploy edildi. Doktor masaüstündeki client uygulaması: ses → metin (Whisper Turkish self-host) → özet (Kumru AI) → HBYS akışını tamamen lokal işliyor. Hiçbir hasta verisi hastane network'ünden dışarı çıkmıyor.

Maliyet. Hastane başına $8K (workstation + entegrasyon + eğitim). 14 hastane = $112K capex. Aylık operational: $1,200 (merkezi monitoring + model güncelleme). API alternatifi karşılaştırması anlamsız — regülatif olarak imkansız.

Sonuç. Doktor başına günlük not yazma süresi 90 dk → 25 dk. 8 ay içinde 14 lokasyona yayıldı. KVKK + Sağlık Bakanlığı denetimlerinde "Türkiye sınırları içinde işleme" maddesi tam uyum.

Vaka 3 — KOBİ E-ticaret: API'de Kalın

Şirket. Aylık ~$2M ciro Türk e-ticaret KOBİ'si (anonim, 25 kişilik ekip).

Problem. Müşteri hizmetleri chatbot + ürün açıklama üretimi + AI marketing copy için aylık ~30M token tüketimi planlanıyor.

Karar süreci.

API (GPT-4o-mini): aylık ~$300 maliyet. Ekipte özel AI engineer yok.
Self-host: 7B model + tek L4 ($580/ay) + 1 part-time AI engineer ($1500/ay) = ~$2K/ay.

Çözüm. API'de kalındı. Self-host bu hacimde 7x daha pahalı + ekip kapasitesi yok. KVKK riski yok (müşteri verisi anonimleştiriliyor, kişisel veri prompt'a girmiyor). BDDK kapsam dışı.

Sonuç. Müşteri hizmetleri chat sayısı aylık 12,000 → 38,000 (otomatik cevaplama ile). Ürün açıklama üretim hızı 5x. AI marketing copy testleri ile dönüşüm oranı %18 arttı. AI yatırım: aylık $300 + part-time prompt engineer $800/ay = $1,100/ay.

Çıkarım. KOBİ ölçeğinde "self-host" tartışması bile yanlış soru. API + iyi prompt engineering + temel observability yeter.

8. Riskler ve Maliyet

Self-Host Risklerinin Gerçekçi Listesi

Self-host'a geçen şirketlerin %40'ı 18 ay içinde geri dönüyor — sebepler:

(1) Kritik kişi riski. Tek AI engineer ayrılırsa sistem bakımı durur. Mitigation: minimum 2 senior + 1 junior takım.

(2) GPU tedarik riski. H100 / H200 / B200 tedarik süresi 2026'da bile 6-12 hafta. Mitigation: cloud GPU instance (RunPod, Lambda) + spot fallback.

(3) Model versiyon güncelleme riski. Trendyol-LLM-v3 → v4 geçişi tüm fine-tune ve eval altyapısının re-test'ini gerektirir; 4-6 hafta çalışma. Mitigation: continuous eval harness.

(4) Lisans risk değişimi. Llama 3.3 community license Meta tarafından değiştirilebilir. Mitigation: Apache 2.0 modellere yedek planı (KanarYa, Kumru).

(5) Kalite gerilemesi. Yeni API modelleri (GPT-6, Claude 5) yayımlandığında self-host kapasiteniz görece düşer; sürekli upgrade pressure'ı.

(6) Maliyet patlaması. Token hacmi beklenen seviyenin altında kalırsa, self-host birim maliyet 3-5x katlanır.

8.1. Vendor-Neutral Self-Host Yığını Önerileri

Türk şirketleri için 2026 olgun stack tavsiyeleri:

Inference server: vLLM (production default), Ollama (dev), BentoML (multi-model serving), Hugging Face TGI (Llama optimized).
Quantization: AWQ (Q4) production için en stabil; GPTQ alternative.
Vector DB (RAG): Qdrant (en yaygın), pgvector (mevcut Postgres üzerinde), Weaviate.
Embedding (Türkçe): BGE-M3 (multilingual, self-hosted), Trendyol-LLM-Embed-v1.
Observability: Langfuse (self-hosted + open-source), Helicone, Arize Phoenix.
Eval harness: RAGAS, DeepEval, TruLens.
Orchestration: Modal (managed), Ray Serve (self-hosted), KServe (Kubernetes-native).

8.2. Hibrit Mimari: En Çok Önerilen Yapı

Türk büyük kurumların 2026'da en yaygın benimsediği yapı, 3 tier hibrit:

Tier 1 (kritik veri / yüksek hacim) → Self-host: Trendyol-LLM-70B-v3 + Qdrant + vLLM, Türkiye DC.
Tier 2 (genel use-case / orta hacim) → API: Claude Opus 4.7 veya GPT-5, EU endpoint.
Tier 3 (deneysel / dev) → API: API ile hızlı denemeler, üretime alınırsa Tier 1/2'ye taşınır.

Workload router (basit bir API gateway + rule engine) gelen sorguyu KVKK risk skoru + complexity skoru + cache hit ihtimaline göre doğru tier'a yönlendirir.

9. Sıkça Sorulan Sorular

10. Bir Sonraki Adım

Self-host vs API kararını şirketinize özel çerçeveye oturtmak için 3 somut adım:

Workload taxonomy + token volume analizi. Mevcut LLM kullanımınızı 4 hafta loglayarak token volume, prompt türü dağılımı, KVKK + BDDK risk profili, peak load çıkarın.
Break-even simulator + risk matrisi. Sektör + token hacmi + regülatif yük girdileriyle dolu Excel/Python modeli; çıktı: API maliyeti, self-host maliyeti (3 farklı senaryo), hibrit maliyet, ROI eşiği.
Pilot kurulumu (4-8 hafta). Hibrit mimari pilot — bir use-case için self-host (Trendyol-LLM-7B veya 70B AWQ), iki use-case için API; observability, eval, fallback testleri.

İletişim için site üzerindeki contact formu kullanılabilir.

Kaynaklar

BDDK — Bankacılıkta Yapay Zeka ve Makine Öğrenmesi Yönetim Tebliği — BDDK, BDDK · 2024-09
KVKK — 6698 Sayılı Kanun — T.C. KVKK, Türkiye Cumhuriyeti · 2016-04
KVKK Yurt Dışı Veri Aktarımı Rehberi — T.C. KVKK, KVKK · 2023
Sağlık Bakanlığı Hasta Verisi Yönetmeliği — T.C. Sağlık Bakanlığı, Resmî Gazete · 2019-06
NVIDIA H100 Tensor Core GPU — NVIDIA, NVIDIA · 2026
NVIDIA H200 Tensor Core GPU — NVIDIA, NVIDIA · 2026
NVIDIA Blackwell B200 — NVIDIA, NVIDIA · 2025
vLLM Documentation — vLLM Project, vLLM · 2026
AWQ: Activation-aware Weight Quantization — Lin et al., arXiv · 2023-06
GPTQ: Accurate Quantization for Generative Pre-trained Transformers — Frantar et al., arXiv · 2022-10
Trendyol-LLM-70B-v3 — Trendyol AI Lab, Hugging Face · 2025-11
Cosmos-Llama-1-70B — YTU CE Cosmos, Hugging Face · 2026-01
OpenAI API Pricing — OpenAI, OpenAI · 2026-05
Anthropic API Pricing — Anthropic, Anthropic · 2026-05
AWS Bedrock EU Region — AWS, Amazon · 2026
Azure OpenAI EU Endpoints — Microsoft, Microsoft · 2026
Langfuse — Open Source LLM Observability — Langfuse, Langfuse · 2026
RAGAS Evaluation Framework — RAGAS, RAGAS · 2026
TÜBİTAK BİLGEM Yapay Zeka Enstitüsü — TÜBİTAK BİLGEM, TÜBİTAK · 2024
T3 Vakfı — T3 Foundation, T3 · 2025
Savunma Sanayii Başkanlığı (SSB) — SSB, SSB · 2025
ITAR — International Traffic in Arms Regulations — U.S. State Department, US · 2025
EAR — Export Administration Regulations — U.S. Department of Commerce, US · 2025
Modal — Managed AI Infrastructure — Modal, Modal · 2026
Hugging Face Text Generation Inference (TGI) — Hugging Face, Hugging Face · 2026
BentoML — BentoML, BentoML · 2026
Ollama — Ollama, Ollama · 2026
RunPod GPU Cloud — RunPod, RunPod · 2026
Lambda Labs — Lambda, Lambda Labs · 2026
CoreWeave — CoreWeave, CoreWeave · 2026
Crusoe — Climate-Aligned Cloud — Crusoe, Crusoe · 2026
DeepSeek V3.2 — DeepSeek, Hugging Face · 2026-03
Qwen 3.5 Series — Alibaba Qwen, Hugging Face · 2026-02

Bu rehber yaşayan bir belgedir; LLM API fiyatları + GPU maliyetleri + regülatif çerçeve her çeyrek değiştiği için çeyreklik olarak güncellenmektedir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Çözüm Bazlı Sayfalar

Private LLM ve On-Prem AI Kurulumu

Veri gizliligi, uyum ve kurumsal kontrol ihtiyaclari icin private AI mimarileri ve hibrit model stratejileri.

private llm

Landing'i ac

Çözüm Bazlı Sayfalar

AI Evaluation, Guardrails ve Observability

Yapay zeka sistemlerinin dogruluk, guvenlik ve performansini olcmek, izlemek ve kontrollu hale getirmek icin kapsamli degerlendirme katmani.

observability

Landing'i ac

Rol Bazlı Sayfalar

CTO'lar icin Kurumsal AI Mimari Danismanligi

PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.

Landing'i ac

Paylaş

Tüm Yazılar

1. Giriş: Yanlış Sorulan Soru

2. Konunun Anatomisi: 4 Boyutlu Karar Çerçevesi

2.1. Token Volume Boyutu

2.2. Veri Hassasiyeti Boyutu

2.3. Engineering Kapasitesi Boyutu

2.4. Latency / SLA Boyutu

3. Karşılaştırma: Self-Host vs API vs Hibrit

3.1. GPU Cloud Maliyeti: 2026 Mayıs Gerçeği

3.2. Quantization Etkisi: Karar Matrisini Değiştiren Boyut

3.3. Throughput ve Birim Maliyet

4. Pratik Uygulama: Break-Even Hesabı

4.1. Senaryo: Türk Bankası Müşteri Hizmetleri RAG

4.2. Break-Even Hesabı: Hangi Token Hacminde Self-Host Kazanır?

4.3. Gizli Maliyetler: "Self-Host Ücretsizdir" Yanılgısı

5. Performans / Benchmark: Self-Host Kalite Karşılaştırması

5.1. Kalite Seviyesi: Self-Host Modeller vs API Modeller (Mayıs 2026)

5.2. Latency Karşılaştırması

6. Türkiye'ye Özgü Açı: KVKK, BDDK ve AI Sovereignty

6.1. KVKK 9. Madde: Cross-Border Transfer Riski

6.2. BDDK 2024 Yapay Zeka Tebliği

6.3. Savunma Sanayi: ITAR / EAR / SSB Kısıtları

6.4. AI Sovereignty Stratejisi: TÜBİTAK ve T3 Yaklaşımı

7. Vaka Çalışmaları: Türk Sektörel Kararlar

Vaka 1 — Türk Bankası: BDDK Uyumu İçin Self-Host

Vaka 2 — Sağlık Grubu: HBYS Verisi + KVKK + Self-Host Zorunluluğu

Vaka 3 — KOBİ E-ticaret: API'de Kalın

8. Riskler ve Maliyet

8.1. Vendor-Neutral Self-Host Yığını Önerileri

8.2. Hibrit Mimari: En Çok Önerilen Yapı

9. Sıkça Sorulan Sorular

10. Bir Sonraki Adım

Kaynaklar

Bu yazıya en yakın consulting sayfaları

Private LLM ve On-Prem AI Kurulumu

AI Evaluation, Guardrails ve Observability

CTO'lar icin Kurumsal AI Mimari Danismanligi

Yorumlar

Yorumlar

LLMOps: Üretim Sınıfı LLM Operasyonları

AI Governance ve EU AI Act Uyumu