# Ollama ve vLLM ile On-Premise LLM Deployment Eğitimi

> Source: https://sukruyusufkaya.com/training/ollama-vllm-on-premise-llm-deploy-egitimi
> Updated: 2026-06-22T12:03:45.692Z
> Level: advanced
> Topics: ollama, vllm, on-premise llm, self-hosted ai, pagedattention, continuous batching, tensor parallelism, multi-gpu inference, quantization, gguf awq gptq fp8, kubernetes llm serving, kserve bentoml, production observability, prometheus grafana llm, tgi sglang, tensorrt-llm, kvkk uyumlu llm, air-gapped deployment, llm cost optimization, infrastructure engineering
**TLDR:** Açık kaynak LLM'leri kurumsal ölçekte on-premise deploy etmek isteyen DevOps, SRE ve ML Platform engineer'ları için Ollama ve vLLM internals'ından multi-GPU distributed inference, Kubernetes serving, production observability ve KVKK uyumlu air-gapped deployment'a uzanan 3 günlük ileri seviye program.

## Açıklama

Ollama ve vLLM ile On-Premise LLM Deployment Eğitimi, açık kaynak büyük dil modellerini kurumsal ölçekte production-grade altyapıda çalıştırmak isteyen DevOps engineer'lar, Site Reliability Engineer'lar (SRE), ML Platform engineer'lar, infrastructure architect'leri ve cloud architect'ler için tasarlanmış 3 günlük ileri seviye bir programdır. Eğitim; on-prem vs API model TCO modellemesi, donanım seçimi (NVIDIA H100/H200/B200, AMD MI300X, Intel Gaudi3), Ollama internals (llama.cpp, GGUF, Modelfile), vLLM mimari derinleşmesi (PagedAttention, continuous batching, prefix caching, speculative decoding), quantization stratejileri (GGUF/AWQ/GPTQ/FP8/FP4), multi-GPU distributed inference (tensor / pipeline / expert parallelism), TGI/SGLang/TensorRT-LLM karşılaştırması, production observability (Prometheus, Grafana, OpenTelemetry, DCGM), Kubernetes ile LLM serving (KServe, BentoML, Helm), auto-scaling ve cost optimization, KVKK uyumlu air-gapped deployment ve security konularını birlikte kapsar.

## Kazanımlar

- On-prem vs API model TCO modellemesi ile mimari karar verebilirsiniz.
- NVIDIA, AMD ve Intel GPU ekosistemleri arasında donanım seçimi ve capacity planning yapabilirsiniz.
- Ollama'yı geliştirici, edge ve branch office senaryolarında profesyonelce kurabilirsiniz.
- vLLM'in PagedAttention, continuous batching ve prefix caching internals'ını tuning yapabilirsiniz.
- Tensor / pipeline / expert parallelism ile multi-GPU distributed inference deploy edebilirsiniz.
- GGUF, AWQ, GPTQ, FP8, FP4 quantization stratejilerini cost-quality-throughput dengesi içinde uygulayabilirsiniz.
- Kubernetes (KServe, BentoML, Helm) üzerinde reproducible LLM serving platform kurabilirsiniz.
- Prometheus, Grafana, OpenTelemetry, DCGM ile production-grade observability sağlayabilirsiniz.
- TLS/mTLS, Vault, audit logging ve air-gapped deployment ile KVKK uyumlu security hardening yapabilirsiniz.

<p>Bu eğitim, açık kaynak büyük dil modellerini kurumsal ölçekte production-grade altyapıda çalıştırmak isteyen DevOps engineer'lar, SRE'ler, ML Platform engineer'lar, infrastructure architect'leri ve cloud architect'ler için tasarlanmıştır. Programın merkezinde şu yaklaşım yer alır: On-premise LLM deployment, basitçe 'Ollama'yı bir sunucuya kurup port aç' değildir. Gerçek operasyonel değer; doğru donanım seçimini VRAM math ve throughput projeksiyonuyla yapmak, vLLM'in PagedAttention ve continuous batching internals'ını anlayıp tuning yapmak, tensor / pipeline / expert parallelism stratejileriyle multi-GPU deployment kurmak, Prometheus + Grafana + OpenTelemetry + DCGM ile production observability sağlamak, Kubernetes üzerinde KServe / BentoML / Helm ile reproducible deployment yapmak, GPU-aware HPA ve KEDA ile auto-scaling kurmak, spot instance ve hybrid model routing ile cost optimize etmek, TLS/mTLS / Vault / audit logging ile security hardening yapmak ve tüm bu sistemi KVKK uyumlu air-gapped topolojide işletmekle oluşur.</p>

<p>Türkiye'de açık kaynak LLM kurulumuyla ilgili içerik son iki yılda hızla genişledi; ancak bu içeriklerin büyük çoğunluğu 'Ollama'yı macOS'ta kur, bir model çek, sor cevap al' düzeyinde kalıyor. Bu eğitim, söz konusu yüzeysel seviyeyi tamamen aşıp inference engine internals + multi-GPU distributed serving + Kubernetes platform engineering + production observability + KVKK air-gapped compliance gibi konuları aynı program içinde işleyen tek kapsamlı Türkçe referans olmak üzere tasarlanmıştır. Hedef kitle ML/data engineer değil; production altyapıyı işleten DevOps engineer, SRE, ML Platform engineer ve infrastructure architect rolleridir. Eğitim Python ML mühendisliğine değil, platform mühendisliği ve operasyonel disipline odaklıdır.</p>

<p>Programın stratejik bir boyutu, on-premise LLM deployment'ın hangi senaryolarda gerçekten gerekli olduğunu netleştirmesidir. KVKK 'yurt dışı transfer' kuralları, BDDK (bankacılık), EPDK (enerji), SGK (sağlık) sektör düzenlemeleri ve EU AI Act çerçevesinde self-hosted serving birçok kurumsal müşteri için zorunlu bir mimari karardır. Aynı zamanda yüksek token hacimleri (100M+/ay), low tail latency ihtiyacı veya domain-specific fine-tuned modellerin operasyonelleştirilmesi gibi durumlarda da self-hosted ekonomik açıdan API modellerinin önüne geçer. Bu eğitim, on-prem vs API model TCO modellemesini break-even noktasıyla birlikte detaylı ele alır; hybrid (sıcak path API, soğuk path on-prem) strateji de gösterilir.</p>

<p>Donanım modülü, eğitimin altyapı omurgasını oluşturur. NVIDIA H100, H200, B100, B200, GB200 spec ve performance; AMD MI300X, MI325X, MI350 ekosistemi; Intel Gaudi3 ve diğer alternative accelerator'lar; RTX 4090/5090 ile prototipleme senaryoları karşılaştırmalı işlenir. VRAM math (model parameters × bytes-per-param + KV cache); batch size, sequence length ve context window etkisi; throughput projeksiyonu (tokens/sec, requests/sec, p99 latency) uçtan uca öğretilir. Multi-GPU topolojilerinde PCIe vs NVLink vs NVSwitch bandwidth farkı; multi-node InfiniBand ve RDMA gereksinimleri; DGX, HGX referans mimari ve custom build seçenekleri detaylı ele alınır. Bu modül, donanım yatırımı yapacak veya bulut GPU satın alacak ekiplere doğrudan uygulanabilir karar matrisi sağlar.</p>

<p>Ollama modülü, geliştirici / edge / branch office senaryolarında derinleşir. Ollama'nın llama.cpp tabanlı backend mimarisi, ggml/gguf format mantığı, model registry akışı, OpenAI-compatible API katmanı internals seviyesinde ele alınır. Modelfile direktifleri (FROM, PARAMETER, TEMPLATE, SYSTEM), custom model üretimi, LoRA adapter merging gibi customization teknikleri uygulamalı işlenir. Production Ollama tarafında OLLAMA_HOST, OLLAMA_KEEP_ALIVE, OLLAMA_NUM_PARALLEL yapılandırması, GPU passthrough, docker/podman entegrasyonu ve branch office / edge node deployment patterns kapsamlı şekilde ele alınır.</p>

<p>vLLM modülü, eğitimin teknik derinleşme zirvesidir. vLLM'in production-grade serving paradigmasını oluşturan iki temel inovasyon — PagedAttention (KV cache fragmentation çözümü) ve continuous batching (throughput optimization) — internals düzeyinde ele alınır. PagedAttention'ın page tabanlı KV cache yönetimi ve OS analojisi; memory utilization metrikleri; static batching vs continuous batching throughput analizi; request scheduler ve preemption mantığı; max_num_batched_tokens ve max_num_seqs tuning konuları detaylı işlenir. İleri optimizasyonlar olarak prefix caching (shared system prompt avantajı), speculative decoding (draft model kullanımı), chunked prefill (long-context handling) ve guided decoding (Outlines, lm-format-enforcer entegrasyonu) uygulamalı şekilde gösterilir.</p>

<p>Quantization stratejileri modülü, donanım kısıtlarında maksimum performans için kritiktir. GGUF (Q2_K, Q3_K_M, Q4_K_M, Q5_K_M, Q6_K, Q8_0); AWQ vs GPTQ (weight-only vs activation-aware); FP8 native (H100 ve sonrası); FP4 (Blackwell B100+); EXL2 ve ExLlamaV2 detaylı karşılaştırılır. Quantization-induced quality regression ölçümü (perplexity, MMLU); domain-specific quality kayıp analizi; throughput vs latency optimizasyonu; tail latency (p99, p999) yönetimi; vLLM benchmark_serving ve GenAI-Perf gibi benchmarking tool'lar uygulamalı işlenir.</p>

<p>Multi-GPU ve distributed inference modülü, büyük modelleri (70B, 405B, 671B) tek GPU'ya sığdırmanın ötesine geçer. Tensor parallelism (matmul splitting), pipeline parallelism (layer-wise split), expert parallelism (MoE-specific routing) ve hybrid 3D parallelism teknikleri ele alınır. vLLM tarafında tensor_parallel_size ve pipeline_parallel_size tuning, NCCL / NVLink / InfiniBand backend yapılandırması, Ray cluster ile multi-node orchestration uygulamalı işlenir. Ayrıca TGI (Hugging Face Rust backend), SGLang (RadixAttention, JSON schema-constrained generation), NVIDIA TensorRT-LLM (peak performance), Triton Inference Server, llama.cpp server, lmdeploy, MLX Server gibi alternative engine'ler karşılaştırmalı ele alınır ve use case bazlı engine seçim matrisi sunulur.</p>

<p>Production observability modülü, eğitimin operasyonel disiplin boyutunu temsil eder. vLLM'in /metrics endpoint'ini Prometheus ile scrape etmek; TTFT (time-to-first-token), TPOT (time-per-output-token), throughput, queue depth gibi vLLM Prometheus metrikleri; Grafana dashboard template'leri; NVIDIA DCGM ile GPU monitoring; structured logging (request_id, prompt hash, completion length); OpenTelemetry trace propagation; Loki / Elastic / Datadog log aggregation detaylı işlenir. Alerting tarafında GPU OOM, queue saturation, p99 latency spike alerting; runbook tasarımı; postmortem disiplini uygulamalı şekilde ele alınır.</p>

<p>Kubernetes modülü, on-premise LLM serving'i kurumsal platform mühendisliği seviyesine taşır. NVIDIA GPU Operator ve nvidia-device-plugin yapılandırması; GPU node taints, tolerations, scheduling; MIG (Multi-Instance GPU) ile fractional GPU; KServe / Knative serverless LLM serving; BentoML ile model packaging; ModelMesh ve Ray Serve karşılaştırması; Helm chart ile reproducible vLLM deployment; Argo CD ile GitOps-based delivery konuları uçtan uca işlenir. Auto-scaling tarafında HPA custom metrics tabanlı scaling, KEDA event-driven autoscaling, cold start optimization, warm pool stratejisi ele alınır. Cost optimization olarak spot instance / preemptible VM / reserved capacity karışımı; model routing (Haiku/Sonnet local vs cloud API hybrid); unit economics (cost-per-token, cost-per-user) ölçümü; multi-tenant inference (namespace isolation, fair scheduling, per-tenant rate limiting) detaylı işlenir.</p>

<p>Security modülü, eğitimin compliance ve governance disiplinini kapsar. TLS / mTLS ile endpoint encryption; internal API gateway ve service mesh (Istio, Linkerd); network policy ve micro-segmentation; HashiCorp Vault ve External Secrets Operator entegrasyonu; kim hangi prompt'u attı audit logging; PII masking ve secret scanning hook'ları; internet bağlantısı olmayan ortamda model dağıtımı; local container registry ve mirror ekosistemi; compliance dokümantasyonu ve denetim hazırlığı uygulamalı işlenir. KVKK 'yurt dışı transfer' kuralları, BDDK / EPDK / SGK sektör düzenlemeleri ve EU AI Act çerçevesinde air-gapped deployment senaryoları detaylı şekilde ele alınır.</p>

<p>Capstone projesinde her katılımcı, kendi şirketi için uçtan uca production-grade bir on-premise LLM serving platformu tasarlar: donanım, engine ve quantization tercihi; Kubernetes deployment, observability ve auto-scaling planı; KVKK uyumlu air-gapped topoloji; cost projection ve performance baseline; ops runbook ve incident response prosedürleri. Eğitim sonunda katılımcılar; on-premise LLM serving'i mimari, operasyonel ve compliance boyutlarıyla bütünleşik yönetebilecek, Ollama ve vLLM internals'ına hakim olacak, multi-GPU distributed inference deployment yapabilecek, production observability ve auto-scaling kurabilecek, Kubernetes üzerinde reproducible LLM serving platform inşa edebilecek, cost optimization ile unit economics ölçebilecek ve KVKK uyumlu air-gapped deployment ile regülasyonlu sektörlerin gereksinimlerini karşılayabilecek seviyede teknik ve mimari yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 80'in üzerinde uygulamalı ders içerir.</p>