Self-Hosted LLM mi, API mı? KVKK + BDDK + Maliyet Matrisi — Kurumsal Karar Rehberi (Breakeven: 500M Token/Gün)
Self-hosted LLM ile API arasındaki kurumsal karar matrisi: ~500M token/gün break-even hesabı, H100/H200/B200 GPU maliyeti, quantization etkisi, KVKK + BDDK + ITAR/EAR kısıtları, AI sovereignty stratejisi ve 3 anonim Türk sektör vakası (bankacılık, sağlık, KOBİ) ile hibrit yaklaşımın tasarımı. Türk şirketleri için 2026 referans rehberi.
1. Giriş: Yanlış Sorulan Soru
"Self-hosted mı, API mı?" sorusu, Türk kurumsal AI karar vericilerinin 2025-2026 boyunca en çok cevap aradığı sorulardan biri. Ancak bu soru genelde yanlış çerçeveleme ile sorulur — sanki tek bir doğru cevap varmış gibi.
- Self-Hosted LLM
- Açık kaynak veya kurumsal lisanslı bir büyük dil modelinin (Llama 3.3 70B, Trendyol-LLM-70B-v3, vb.) şirketin kendi sunucularında ya da kendi tahsis ettiği bulut GPU instance'larında çalıştırılması; tüm prompt + cevap + metadata'nın kurumsal kontrolde tutulması.
- Ayrıca: On-prem LLM, Private LLM
- Wikidata: Q115305900
Doğru çerçeveleme şu: "Hangi workload için self-host, hangi workload için API, hangi workload için hibrit?" Bu yazı bu üç-yollu karar matrisinin Türk kurumsal kullanım koşullarındaki tam haritasını çiziyor.
2. Konunun Anatomisi: 4 Boyutlu Karar Çerçevesi
Self-host vs API kararı dört bağımsız boyutta verilir — her birinin kendi başına zorunlu kıldığı bir cevap olabilir:
2.1. Token Volume Boyutu
Aylık token tüketiminize göre maliyet hesabı tamamen değişir.
- <10M token/ay (KOBİ chatbot): API her zaman ucuz. Self-host overhead'i ödenmez.
- 10-100M token/ay (orta ölçek): API hâlâ önde, hibrit düşünülebilir.
- 100-500M token/ay (büyük müşteri hizmetleri): Hibrit ideal — yüksek hacim açık kaynak self-host, yüksek kalite + nadir kullanım API.
- >500M token/ay (kurumsal masif kullanım): Self-host maliyet açısından kazanır; ama operational maturity şart.
2.2. Veri Hassasiyeti Boyutu
Prompt + cevap içinde dolaşan verinin regülatif sınıfı belirleyici.
- Public / non-personal veri: API serbestçe kullanılabilir.
- Şirket-içi commercial veri (iç eğitim, dahili wiki): Şart değil ama hibrit tavsiye edilir.
- KVKK kapsamında kişisel veri: Cross-border transfer riski; ya KVKK anonimleştirme ya da Türkiye-AB hosted çözüm gerekli.
- BDDK kapsamı (finans): Bankacılıkta AI tebliği gereği veri yerleşimi + explainability zorunlu — self-host'a doğru ciddi baskı.
- Sağlık verisi (Sağlık Bakanlığı + KVKK): HBYS verisi yurt dışına gönderilemez — self-host zorunlu.
- Savunma teknik verisi (ITAR / EAR / SSB): Self-host zorunlu; tercihen TÜBİTAK veya T3 onaylı altyapı.
2.3. Engineering Kapasitesi Boyutu
Self-host'un sürdürülebilirliği, ekibin operational maturity'sine bağlı.
- AI/ML engineer yok: Self-host kötü fikir, API'de kalın.
- 1 AI engineer: 7B model + tek GPU + vLLM ile sınırlı self-host mümkün.
- 3+ AI engineer + DevOps: 70B multi-GPU cluster + observability + eval harness ile production self-host mümkün.
- AI Platform takımı (5+ kişi): Tam stratejik self-host + custom fine-tuning kapasitesi.
2.4. Latency / SLA Boyutu
Üretim SLA gereksinimleri kararı etkiler.
- <1s p95 zorunlu (real-time agent): Self-host avantajı — network jitter yok, batch optimization tam.
- <3s p95 (genel chat): API yeterli.
- <10s, batch tolere edilebilir: API + cache + retry yeterli.
3. Karşılaştırma: Self-Host vs API vs Hibrit
| Boyut | Self-Host | API (OpenAI/Anthropic) | Hibrit |
|---|---|---|---|
| Aylık Min Maliyet | $3K-25K | $50-200 | $2K-15K |
| KVKK Uyumu | Tam kontrol | Zor + ek work | Workload bazlı |
| BDDK Uyumu | Direkt | Yüksek uyum yükü | Mümkün |
| Latency p95 | Düşük + öngörülebilir | Orta + jitter | Karışık |
| Engineering Yükü | Yüksek | Düşük | Orta |
| Model Kalitesi | İyi (70B) | En iyi (GPT-5/Opus) | Esnek seçim |
| Veri Yerleşimi | %100 yerli | API sağlayıcı | Workload bazlı |
| Token Volume Eşiği | >500M/gün | <100M/gün | 100-500M/gün |
| Maintenance | Yüksek (3 aylık model güncelleme) | Yok | Orta |
| Vendor Lock-in | Yok | Var | Az |
3.1. GPU Cloud Maliyeti: 2026 Mayıs Gerçeği
GPU cloud maliyeti son 12 ayda ciddi şekilde değişti; 2026 Mayıs itibarıyla pazar fiyatları:
| GPU | Saatlik (On-Demand) | Saatlik (Spot) | VRAM | Birincil Sağlayıcı |
|---|---|---|---|---|
| NVIDIA H100 SXM | $4.50 | $2.20 | 80 GB | AWS, GCP, Lambda, RunPod |
| NVIDIA H100 PCIe | $3.80 | $1.80 | 80 GB | RunPod, Vast.ai |
| NVIDIA H200 | $5.00 | $2.80 | 141 GB | CoreWeave, Lambda, Crusoe |
| NVIDIA B200 | $7-9 | $4-5 | 192 GB | Limited GA (CoreWeave, Lambda) |
| NVIDIA A100 80GB | $2.20 | $1.10 | 80 GB | Geniş erişim |
| NVIDIA L4 | $0.80 | $0.40 | 24 GB | GCP, AWS |
| NVIDIA L40S | $1.40 | $0.70 | 48 GB | Yaygın |
Yorum. 2024'te $8/saat olan H100, agresif yarış nedeniyle 2026'da $4.50'ya indi. B200 hâlâ premium ama 2027 Q1'de $5-6 bandına inecek tahmin ediliyor. Spot fiyatlar üretim için riskli — preemption olabilir; öngörülebilir SLA için on-demand tercih edilmeli.
3.2. Quantization Etkisi: Karar Matrisini Değiştiren Boyut
Quantization, model ağırlıklarını daha az bit'e sıkıştırarak VRAM'i ve hesap maliyetini düşürür. 2026 itibarıyla production-ready quantization seçenekleri:
- FP16 (baseline): 70B → 140 GB VRAM. Kalite kaybı yok.
- INT8: 70B → 70 GB VRAM. Kalite kaybı genelde <1%.
- AWQ Q4 / GPTQ Q4: 70B → 35 GB VRAM. Kalite kaybı %2-3.
- GGUF Q5_K_M: 70B → ~45 GB VRAM. Hobi/Edge için iyi; production'da AWQ tercih edilir.
3.3. Throughput ve Birim Maliyet
70B model AWQ Q4 + 2xH200 + vLLM senaryosunda gerçek throughput:
- Tek istek (concurrency 1): ~50 token/s
- Batch 8: ~280 token/s aggregate
- Batch 16: ~480 token/s aggregate
- Batch 32: ~720 token/s aggregate (memory pressure başlar)
Birim maliyet hesabı. 2xH200 on-demand = $10/saat = $7200/ay (full utilization). Tipik kurumsal batch 16 throughput → 480 token/s × 3600 = 1.728M token/saat × 720 saat (ay) = ~1.24 milyar token/ay kapasite. Token başına self-host birim maliyet: $7200 / 1.24B = $5.81 / 1M token (full utilization).
OpenAI GPT-5 fiyatı 2026 Mayıs: $5 / 1M input + $15 / 1M output token. Self-host birim maliyet (full util.) ile GPT-5 input cost karşılaştırılabilir — ancak GPT-5 kalitesi farklı seviye.
Claude Opus 4.7 fiyatı: $15 / 1M input + $75 / 1M output. Self-host avantajı burada belirginleşir — eğer Opus seviyesinde kalite gerekmiyorsa.
4. Pratik Uygulama: Break-Even Hesabı
Şimdi gerçek bir hesap üzerinden gidelim — Türk orta-büyük şirket senaryosu.
4.1. Senaryo: Türk Bankası Müşteri Hizmetleri RAG
Parametreler:
- Günlük 12M token (in + out toplam) — orta ölçek banka chat hacmi
- %60 input / %40 output dağılımı
- p95 latency hedefi: 3s
- KVKK + BDDK uyumu zorunlu
API maliyeti (GPT-5 üzerinden hesap):
- 12M token/gün × 30 = 360M token/ay
- Input: 216M × $5 = $1,080/ay
- Output: 144M × $15 = $2,160/ay
- Toplam: $3,240/ay
- Yıllık: ~$39K
Self-host maliyeti (70B AWQ + 2xH200):
- GPU: 2xH200 on-demand = $7,200/ay
- Aylık 1.24B token kapasite (full util.)
- Engineering: 1 senior AI engineer $5,500/ay
- Observability + monitoring: $500/ay
- Security audit + KVKK uyum: $300/ay
- Toplam: $13,500/ay
- Yıllık: ~$162K
Sonuç. Bu senaryoda API self-host'tan 4x daha ucuz — saf maliyet kararı API. Ancak KVKK + BDDK uyumu için her API çağrısında ek ~$80K/yıl audit + danışmanlık + cross-border transfer dokümantasyon yükü var. Bu eklendiğinde:
- API toplam: $39K + $80K = $119K/yıl
- Self-host toplam: $162K/yıl (KVKK uyum içeride dahil)
Yine self-host daha pahalı; ama BDDK denetim risk skoru çok düşük. Yönetim kararı: kabul edilebilir maliyet primi karşılığında risk azaltma.
4.2. Break-Even Hesabı: Hangi Token Hacminde Self-Host Kazanır?
Aynı hesabı token hacmine göre genelleştirelim:
| Aylık Token | API Maliyeti | Self-Host (2xH200) | Self-Host (4xH200) | Kazanan |
|---|---|---|---|---|
| 100M | $900 | $13.5K | $24K | API |
| 360M | $3.2K | $13.5K | $24K | API |
| 1.2B | $10.8K | $13.5K | $24K | API (marjinal) |
| 3B | $27K | $22K (4xH200) | $22K | Self-Host |
| 6B | $54K | Kapasite yetmez | $24K | Self-Host |
| 11B | $99K | Kapasite yetmez | $36K (6xH200) | Self-Host |
| 30B | $270K | Kapasite yetmez | $120K | Self-Host |
Yorum. Saf API maliyet karşılaştırmasında break-even ~11 milyar token/ay = ~500M token/gün civarında. Bu eşiğin altında API; üstünde self-host kazanır.
4.3. Gizli Maliyetler: "Self-Host Ücretsizdir" Yanılgısı
5. Performans / Benchmark: Self-Host Kalite Karşılaştırması
5.1. Kalite Seviyesi: Self-Host Modeller vs API Modeller (Mayıs 2026)
| Model | Türkçe Skor | Erişim | Kalite Tier |
|---|---|---|---|
| GPT-5 | ~78 | API | S |
| Claude Opus 4.7 | ~76 | API | S |
| Gemini 3.1 Pro | ~74 | API | A+ |
| GPT-4o-mini | ~72 | API | A |
| Trendyol-LLM-70B-v3 | 69.7 | Self-host | A |
| Cosmos-Llama-1-70B | 68.0 | Self-host | A |
| Llama-3.3-70B (vanilla) | 64.2 | Self-host | B+ |
| DeepSeek V3.2 | ~67 | Self-host (671B MoE!) | A |
| Qwen 3.5-72B | ~66 | Self-host | A- |
| Claude Haiku 4.5 | ~63 | API | B+ |
| Trendyol-LLM-7B-v3 | 51.4 | Self-host | B |
| Kumru AI-7.4B | 47.1 | Self-host | C+ |
Pratik gözlem. Self-host ile yakalanabilen tavan, Türkçe için yaklaşık GPT-4o-mini seviyesi. GPT-5 / Claude Opus 4.7 ile yarışmak için ya fine-tuning + RLHF investment ya da hibrit (kritik sorular API, gerisi self-host) gerekli.
5.2. Latency Karşılaştırması
Latency, kullanıcı deneyimi açısından maliyet kadar önemli:
- API (GPT-5): p50 ~1.4s, p95 ~3.8s (Avrupa endpoint). Türkiye'den +50-80ms.
- API (Claude Opus 4.7): p50 ~1.8s, p95 ~4.5s.
- Self-host (Trendyol-70B AWQ + 2xH200, batch 8): p50 ~1.1s, p95 ~2.6s.
- Self-host (Trendyol-7B + L4, batch 1): p50 ~0.6s, p95 ~1.4s.
Yorum. Self-host latency avantajı lokal deployment + network jitter yokluğu sayesinde belirgin. Real-time agent senaryolarında bu fark kritik olabilir.
6. Türkiye'ye Özgü Açı: KVKK, BDDK ve AI Sovereignty
6.1. KVKK 9. Madde: Cross-Border Transfer Riski
KVKK 9. madde, kişisel verinin yurt dışına aktarılmasını (a) açık rıza veya (b) yeterli ülke listesi koşuluyla kısıtlar. OpenAI / Anthropic gibi ABD merkezli API'lere kişisel veri içeren prompt gönderildiğinde:
- Cross-border transfer doğar. Türkiye → ABD.
- ABD yeterli ülke statüsünde değil (KVKK kurulu tarafından).
- Dolayısıyla veri sahibinden açık rıza alınması gerekir — pratik olarak mümkün değil.
Çözüm yolları:
- A. Anonimleştirme katmanı: Prompt'a giden tüm kişisel veri PII detection ile maskelenir. Pratik ama hatalı çıkış yapma riski var.
- B. EU endpoint kullanımı: Bazı API sağlayıcıları (Anthropic AWS Bedrock EU, OpenAI Azure EU) Avrupa data residency veriyor. KVKK kurulu AB'yi yeterli sayar — bu çözüm geçerli.
- C. Self-host (Türkiye): En temiz çözüm; kişisel veri sınırı hiç geçmez.
6.2. BDDK 2024 Yapay Zeka Tebliği
BDDK, 2024 Eylül'de yayımladığı "Bankacılıkta Yapay Zeka ve Makine Öğrenmesi Yönetim Tebliği" ile şu zorunlulukları getirdi:
- Veri yerleşimi. Banka müşteri verilerinin işlendiği AI sistemleri Türkiye veya yeterli ülkede hosted olmalı.
- Explainability. Karar verici AI sistemlerinde insan-anlayabilir gerekçe sunma yükümlülüğü.
- Üçüncü taraf bağımlılığı. Tüm AI sağlayıcılarının (model + altyapı) explicit kontrat + risk değerlendirmesi.
- Audit log. Her AI kararı için 7 yıllık denetim izi.
Pratik etki. Türk bankalarının çoğu, OpenAI/Anthropic API kullanmak için ek $50-150K yıllık compliance overhead çıkarıyor; self-host'a geçmek bu yükü ciddi azaltıyor.
6.3. Savunma Sanayi: ITAR / EAR / SSB Kısıtları
Savunma sanayinde teknik veri kategorisine giren her şey yurt dışı bulut hizmetlerine gönderilemez:
- Silah sistemi specs
- Taktik operasyon planlaması
- İnsansız hava aracı telemetry
- Komuta-kontrol diyalogu
- Askeri eğitim materyali
Bu kategoride self-host zorunlu; tercihen TÜBİTAK BİLGEM veya T3 AI Baykar onaylı altyapı.
6.4. AI Sovereignty Stratejisi: TÜBİTAK ve T3 Yaklaşımı
AI sovereignty (AI egemenliği) kavramı, ulusal güvenlik + ekonomik bağımsızlık çerçevesinde, kritik AI yeteneklerinin yabancı vendor'lara bağımlı olmamasını ifade eder. Türkiye'de 2025-2026 döneminde:
- TÜBİTAK BİLGEM: Sıfırdan eğitilmiş Türkçe LLM (bilgem-tr-llm-13b, 70b) + Türk GPU cluster.
- T3 AI Baykar: Savunma sanayi spesifik fine-tune'lar + ITAR/EAR uyumlu lisans.
- TÜBİTAK ULAKBİM: GPU compute infrastructure (yerli akademik + kamu).
Bu üç ayak, stratejik sektörlerin self-host'a yönelmesini kolaylaştırıyor.
7. Vaka Çalışmaları: Türk Sektörel Kararlar
Vaka 1 — Türk Bankası: BDDK Uyumu İçin Self-Host
Şirket. Top-5 Türk özel bankası (anonim, ~18M aktif müşteri).
Problem. İç eğitim chatbot + bayi destek sistemi + müşteri hizmetleri özetleme için aylık ~9 milyar token tüketimi planlanıyor. OpenAI API tahmini maliyet: $95K/ay; ama BDDK 2024 tebliği gereği veri yerleşimi + explainability + 7 yıllık audit log zorunluluğu — API ile uyum yükü çok yüksek.
Karar süreci. 6 haftalık değerlendirme:
- API + KVKK anonimleştirme katmanı: teknik mümkün ama BDDK denetim riski yüksek.
- Azure OpenAI EU endpoint: KVKK için OK, ama BDDK "Türkiye veri yerleşimi" tercihiyle çelişir.
- Self-host: Trendyol-LLM-70B-v3 + Cosmos-Llama-1-70B hibrit; Ankara DC, 8xH100 cluster.
Çözüm. Self-host'a karar verildi. Donanım yatırımı $650K (8xH100 + networking + storage); aylık operational $18K (engineering, observability, security audit dahil). Toplam yıllık maliyet $866K; API ile $1.14M (95K × 12 + uyum yükü) — ROI 24 ayda pozitif.
Sonuç. 18,000 bayi + 28,000 iç çalışan kullanıcı. Müşteri hizmetleri ortalama yanıt süresi 12 dk → 3 dk. BDDK 2025 denetim raporunda "AI compliance" maddesinde tam puan. Marka için stratejik kazanç: "yerli yetkinlik" mesajı.
Vaka 2 — Sağlık Grubu: HBYS Verisi + KVKK + Self-Host Zorunluluğu
Şirket. 14 hastane + 23 poliklinik grubu (anonim, ~1.2M yıllık hasta görüşmesi).
Problem. Doktor görüşme notlarını ses kaydından otomatik özetleyip HBYS'ye yapılandırılmış kayıt olarak gönderecek sistem isteniyor. Token volume aylık ~200M (orta seviye). Kısıt: HBYS verisi yurt dışına asla gönderilemez (KVKK + Sağlık Bakanlığı Hasta Veri Yönetmeliği).
Karar süreci.
- OpenAI API: KVKK + Sağlık Bakanlığı çift kısıt — direkt elendi.
- Azure OpenAI EU: KVKK için OK ama Sağlık Bakanlığı yönetmeliği "Türkiye sınırları içinde" diyor — uyum zor.
- Self-host: Tek geçerli yol.
Çözüm. Her hastaneye lokal RTX 4090 24GB workstation + Kumru AI-7.4B (4-bit quantize, 4.5GB VRAM) deploy edildi. Doktor masaüstündeki client uygulaması: ses → metin (Whisper Turkish self-host) → özet (Kumru AI) → HBYS akışını tamamen lokal işliyor. Hiçbir hasta verisi hastane network'ünden dışarı çıkmıyor.
Maliyet. Hastane başına $8K (workstation + entegrasyon + eğitim). 14 hastane = $112K capex. Aylık operational: $1,200 (merkezi monitoring + model güncelleme). API alternatifi karşılaştırması anlamsız — regülatif olarak imkansız.
Sonuç. Doktor başına günlük not yazma süresi 90 dk → 25 dk. 8 ay içinde 14 lokasyona yayıldı. KVKK + Sağlık Bakanlığı denetimlerinde "Türkiye sınırları içinde işleme" maddesi tam uyum.
Vaka 3 — KOBİ E-ticaret: API'de Kalın
Şirket. Aylık ~$2M ciro Türk e-ticaret KOBİ'si (anonim, 25 kişilik ekip).
Problem. Müşteri hizmetleri chatbot + ürün açıklama üretimi + AI marketing copy için aylık ~30M token tüketimi planlanıyor.
Karar süreci.
- API (GPT-4o-mini): aylık ~$300 maliyet. Ekipte özel AI engineer yok.
- Self-host: 7B model + tek L4 ($580/ay) + 1 part-time AI engineer ($1500/ay) = ~$2K/ay.
Çözüm. API'de kalındı. Self-host bu hacimde 7x daha pahalı + ekip kapasitesi yok. KVKK riski yok (müşteri verisi anonimleştiriliyor, kişisel veri prompt'a girmiyor). BDDK kapsam dışı.
Sonuç. Müşteri hizmetleri chat sayısı aylık 12,000 → 38,000 (otomatik cevaplama ile). Ürün açıklama üretim hızı 5x. AI marketing copy testleri ile dönüşüm oranı %18 arttı. AI yatırım: aylık $300 + part-time prompt engineer $800/ay = $1,100/ay.
Çıkarım. KOBİ ölçeğinde "self-host" tartışması bile yanlış soru. API + iyi prompt engineering + temel observability yeter.
8. Riskler ve Maliyet
8.1. Vendor-Neutral Self-Host Yığını Önerileri
Türk şirketleri için 2026 olgun stack tavsiyeleri:
- Inference server: vLLM (production default), Ollama (dev), BentoML (multi-model serving), Hugging Face TGI (Llama optimized).
- Quantization: AWQ (Q4) production için en stabil; GPTQ alternative.
- Vector DB (RAG): Qdrant (en yaygın), pgvector (mevcut Postgres üzerinde), Weaviate.
- Embedding (Türkçe): BGE-M3 (multilingual, self-hosted), Trendyol-LLM-Embed-v1.
- Observability: Langfuse (self-hosted + open-source), Helicone, Arize Phoenix.
- Eval harness: RAGAS, DeepEval, TruLens.
- Orchestration: Modal (managed), Ray Serve (self-hosted), KServe (Kubernetes-native).
8.2. Hibrit Mimari: En Çok Önerilen Yapı
Türk büyük kurumların 2026'da en yaygın benimsediği yapı, 3 tier hibrit:
- Tier 1 (kritik veri / yüksek hacim) → Self-host: Trendyol-LLM-70B-v3 + Qdrant + vLLM, Türkiye DC.
- Tier 2 (genel use-case / orta hacim) → API: Claude Opus 4.7 veya GPT-5, EU endpoint.
- Tier 3 (deneysel / dev) → API: API ile hızlı denemeler, üretime alınırsa Tier 1/2'ye taşınır.
Workload router (basit bir API gateway + rule engine) gelen sorguyu KVKK risk skoru + complexity skoru + cache hit ihtimaline göre doğru tier'a yönlendirir.
9. Sıkça Sorulan Sorular
10. Bir Sonraki Adım
Self-host vs API kararını şirketinize özel çerçeveye oturtmak için 3 somut adım:
- Workload taxonomy + token volume analizi. Mevcut LLM kullanımınızı 4 hafta loglayarak token volume, prompt türü dağılımı, KVKK + BDDK risk profili, peak load çıkarın.
- Break-even simulator + risk matrisi. Sektör + token hacmi + regülatif yük girdileriyle dolu Excel/Python modeli; çıktı: API maliyeti, self-host maliyeti (3 farklı senaryo), hibrit maliyet, ROI eşiği.
- Pilot kurulumu (4-8 hafta). Hibrit mimari pilot — bir use-case için self-host (Trendyol-LLM-7B veya 70B AWQ), iki use-case için API; observability, eval, fallback testleri.
İletişim için site üzerindeki contact formu kullanılabilir.
Kaynaklar
- BDDK — Bankacılıkta Yapay Zeka ve Makine Öğrenmesi Yönetim Tebliği — BDDK, BDDK ·
- KVKK — 6698 Sayılı Kanun — T.C. KVKK, Türkiye Cumhuriyeti ·
- KVKK Yurt Dışı Veri Aktarımı Rehberi — T.C. KVKK, KVKK ·
- Sağlık Bakanlığı Hasta Verisi Yönetmeliği — T.C. Sağlık Bakanlığı, Resmî Gazete ·
- NVIDIA H100 Tensor Core GPU — NVIDIA, NVIDIA ·
- NVIDIA H200 Tensor Core GPU — NVIDIA, NVIDIA ·
- NVIDIA Blackwell B200 — NVIDIA, NVIDIA ·
- vLLM Documentation — vLLM Project, vLLM ·
- AWQ: Activation-aware Weight Quantization — Lin et al., arXiv ·
- GPTQ: Accurate Quantization for Generative Pre-trained Transformers — Frantar et al., arXiv ·
- Trendyol-LLM-70B-v3 — Trendyol AI Lab, Hugging Face ·
- Cosmos-Llama-1-70B — YTU CE Cosmos, Hugging Face ·
- OpenAI API Pricing — OpenAI, OpenAI ·
- Anthropic API Pricing — Anthropic, Anthropic ·
- AWS Bedrock EU Region — AWS, Amazon ·
- Azure OpenAI EU Endpoints — Microsoft, Microsoft ·
- Langfuse — Open Source LLM Observability — Langfuse, Langfuse ·
- RAGAS Evaluation Framework — RAGAS, RAGAS ·
- TÜBİTAK BİLGEM Yapay Zeka Enstitüsü — TÜBİTAK BİLGEM, TÜBİTAK ·
- T3 Vakfı — T3 Foundation, T3 ·
- Savunma Sanayii Başkanlığı (SSB) — SSB, SSB ·
- ITAR — International Traffic in Arms Regulations — U.S. State Department, US ·
- EAR — Export Administration Regulations — U.S. Department of Commerce, US ·
- Modal — Managed AI Infrastructure — Modal, Modal ·
- Hugging Face Text Generation Inference (TGI) — Hugging Face, Hugging Face ·
- BentoML — BentoML, BentoML ·
- Ollama — Ollama, Ollama ·
- RunPod GPU Cloud — RunPod, RunPod ·
- Lambda Labs — Lambda, Lambda Labs ·
- CoreWeave — CoreWeave, CoreWeave ·
- Crusoe — Climate-Aligned Cloud — Crusoe, Crusoe ·
- DeepSeek V3.2 — DeepSeek, Hugging Face ·
- Qwen 3.5 Series — Alibaba Qwen, Hugging Face ·
Bu rehber yaşayan bir belgedir; LLM API fiyatları + GPU maliyetleri + regülatif çerçeve her çeyrek değiştiği için çeyreklik olarak güncellenmektedir.
Danismanlik Baglantilari
Bu yazıya en yakın consulting sayfaları
Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.
Private LLM ve On-Prem AI Kurulumu
Veri gizliligi, uyum ve kurumsal kontrol ihtiyaclari icin private AI mimarileri ve hibrit model stratejileri.
AI Evaluation, Guardrails ve Observability
Yapay zeka sistemlerinin dogruluk, guvenlik ve performansini olcmek, izlemek ve kontrollu hale getirmek icin kapsamli degerlendirme katmani.
CTO'lar icin Kurumsal AI Mimari Danismanligi
PoC seviyesinde kalan AI girisimlerini guvenli, olceklenebilir ve production-ready mimarilere tasimak icin teknik liderlik danismanligi.