Hiç vLLM deneyimim yoksa bu eğitime gelebilir miyim?

Evet. Modül 1-3 (strateji, donanım, Ollama) hiç vLLM bilmeyen biri için temel kuruyor. Modül 4 vLLM'i sıfırdan başlatarak PagedAttention ve continuous batching internals'ına götürüyor. Beklenti şu: Linux/Docker/Kubernetes ile çalışma deneyimin olsun. Python ML mühendisliği gerekmiyor; bu DevOps/SRE odaklı bir eğitim.

Hangi GPU'larda hands-on yapacağız? Pahalı ekipman gerekli mi?

Eğitim sırasında çoğu egzersiz cloud GPU (RunPod, Lambda Labs, vast.ai) ile yapılabilir. RTX 4090 (~1 USD/saat) küçük model egzersizleri için yeterli; A100 / H100 (~2-4 USD/saat) multi-GPU ve büyük model egzersizleri için kullanılır. Toplam katılımcı başına maliyet 20-40 USD aralığında. Kurumsal sınıf eğitimlerde sağlayıcı bütçe kapsamı dahilinde ekipman önerilir.

Ollama production'da kullanılır mı, yoksa sadece prototip için mi?

Ollama production'da da kullanılır ama belirli senaryolarda. Düşük QPS gerektiren internal tooling, branch office / edge deployment, geliştirici-paylaşımlı LLM endpoint için ideal. Yüksek QPS, multi-tenant serving veya büyük model (70B+) ihtiyacı varsa vLLM tercih edilir. Modül 3 Ollama'nın production kullanımının pros/cons ve doğru senaryolarını detaylı işler.

Multi-GPU deployment için tensor parallelism mi yoksa pipeline parallelism mi?

Tensor parallelism (TP): tek node içinde, NVLink ile bağlı GPU'lar için ideal — düşük latency, yüksek bandwidth ihtiyacı. Pipeline parallelism (PP): multi-node deployment için, GPU'lar arası bandwidth düşükse — throughput odaklı. Expert parallelism (EP): MoE modellerinde (DeepSeek V3, Mixtral) zorunlu. Modül 6 her birini karşılaştırır ve gerçek senaryolar üzerinde TP/PP karar matrisi sunar.

Production'da hangi quantization seviyesi tercih edilmeli?

Kullanım senaryosuna bağlı: Maximum quality için Q8 veya FP16 (hiç quantization yok); cost-quality balance için Q5_K_M veya AWQ 4-bit; maximum throughput için Q4_K_M veya AWQ 4-bit. H100+ donanımda FP8 native ideal; Blackwell B100+ için FP4 yeni standart. Modül 5 perplexity ve MMLU bazında quality kaybı analizi ve cost-quality-throughput trade-off matrisi sunar.

Air-gapped deployment için Docker image'ı nasıl güncelliyoruz?

Air-gapped ortamda local container registry (Harbor, Nexus, Quay) ve mirror ekosistemi kullanılır. Bir 'bridge' node interneti olan yere bağlanır, image'ları indirir, signature doğrular ve internal registry'e push eder. Production node'lar sadece internal registry'den çeker. Modül 11 bu süreci compliance dokümantasyonu ile birlikte uygulamalı işler — BDDK ve SGK denetimine hazır prosedürlerle.

KServe ve BentoML arasında nasıl seçim yaparım?

KServe (eski adıyla KFServing): Kubernetes-native, Knative tabanlı serverless, scale-to-zero. CRD (InferenceService) ile declarative; KubeFlow ekosistemine entegre. BentoML: Daha esnek, Python-first, model packaging odaklı; Yatai dashboard ile UI; Kubernetes dışı (Docker, VM) deployment'a da olanak sağlıyor. Modül 9 her ikisini de hands-on gösterir ve karar matrisi sunar.

Cost optimization için spot instance LLM serving'de güvenli mi?

Stateless workload için evet, %50-70 maliyet düşürür. Ancak: (1) Spot interruption olursa request kaybedebilirsiniz, (2) Cold start LLM için 30-90 saniye sürer (model loading), (3) Multi-GPU senaryosunda tek GPU spot çekilirse tüm cluster'ı etkiler. Modül 10 spot + on-demand hibrit stratejisi gösterir: baseline reserved/on-demand, burst spot. Cold start için warm pool ve model preloading optimization'ı da işlenir.

Banka veya hastane için air-gapped deployment kurmak ne kadar sürer?

Tipik bir BDDK uyumlu banka air-gapped deployment 6-12 hafta sürer: hafta 1-2 hardware procurement ve network design, hafta 3-4 Kubernetes cluster + GPU Operator kurulumu, hafta 5-6 vLLM + observability stack, hafta 7-8 security hardening (TLS, Vault, audit), hafta 9-10 KVKK compliance dokümantasyonu ve denetime hazırlık, hafta 11-12 production cutover ve runbook teslimi. Modül 11 ve 12 bu sürecin step-by-step planını içerir.

Eğitim sonunda hangi somut çıktılarla ayrılırım?

Capstone olarak şu somut artefaktlar üretilir: (1) Kurumunuza özel on-prem LLM platform mimari diagram'ı, (2) Donanım capacity plan ve cost projection (3-yıllık TCO), (3) Helm chart ve Kubernetes manifest template'leri (vLLM, observability stack), (4) Prometheus + Grafana dashboard JSON'ları ve alerting rule'ları, (5) Auto-scaling ve cost optimization stratejisi, (6) KVKK uyumlu air-gapped deployment runbook, (7) Security checklist ve incident response prosedürleri, (8) 90 günlük operational roadmap.

Eğitim kurumsal ekibimize özel uyarlanabilir mi?

Evet. Standart 3 günlük programın yanında, kurumsal müşteriler için özelleştirilmiş kapalı sınıf versiyonlar düzenliyoruz. Mevcut Kubernetes / cloud / GPU stack'iniz, hedef LLM aileniz (DeepSeek, Llama, Qwen), QPS ve latency hedefleriniz, sektör regülasyonunuz (BDDK, EPDK, SGK), compliance gereksinimleriniz (KVKK, GDPR) ve hardware sınırlarınız dikkate alınarak modül ağırlıkları özelleştirilir. Şirketinize özel mimari diagram ve capacity plan dahil edilebilir.

Bu eğitim hakkında

Açık kaynak LLM'leri kurumsal ölçekte on-premise deploy etmek isteyen DevOps, SRE ve ML Platform engineer'ları için Ollama ve vLLM internals'ından multi-GPU distributed inference, Kubernetes serving, production observability ve KVKK uyumlu air-gapped deployment'a uzanan 3 günlük ileri seviye program.

Bu eğitim şu kitleler için tasarlanmıştır: Kurumsal AI serving infrastructure'ı kurmak ve işletmek isteyen DevOps engineer ve Site Reliability Engineer'lar (SRE) ML Platform engineer, AI Platform team lead ve internal developer platform inşa eden ekipler GPU cluster, Kubernetes ve multi-tenant serving altyapısı yöneten infrastructure architect'ler KVKK / BDDK / EPDK / SGK gibi regülasyonlu sektörler için air-gapped AI serving kurma sorumluluğu olan technical leadlar Self-hosted LLM ROI'sini düşürmek isteyen FinOps ekipleri ve cost optimization odaklı CTO'lar Mevcut LangChain / LlamaIndex / agent uygulamalarını production-grade self-hosted backend ile çalıştırmak isteyen mühendislik liderleri

Bu eğitim neden önemli: Yüzeysel 'Ollama'yı kur, model çek' içeriklerinin ötesine geçen Türkiye'nin tek production-grade on-premise LLM deployment programıdır. vLLM'in PagedAttention ve continuous batching internals'ını mimari derinlikte ele alarak gerçek tuning yapma yetkinliği kazandırır. NVIDIA, AMD ve Intel GPU ekosistemlerini karşılaştırarak donanım yatırım kararlarına direkt uygulanabilir capacity planning matrisi sağlar. Multi-GPU distributed inference (TP / PP / EP) ile büyük modelleri (70B, 405B, 671B) production'a almanın mühendislik disiplinini kurar. Kubernetes (KServe, BentoML, Helm), auto-scaling (HPA, KEDA), observability (Prometheus, Grafana, DCGM) ile production-grade platform engineering öğretir. KVKK / BDDK / EPDK / SGK / EU AI Act çerçevesinde air-gapped deployment ve compliance governance konularıyla regülasyonlu sektörlerin gereksinimlerini karşılar.

Eğitim sonunda kazanacağınız çıktılar: On-prem vs API model TCO modellemesi ile mimari karar verebilirsiniz. NVIDIA, AMD ve Intel GPU ekosistemleri arasında donanım seçimi ve capacity planning yapabilirsiniz. Ollama'yı geliştirici, edge ve branch office senaryolarında profesyonelce kurabilirsiniz. vLLM'in PagedAttention, continuous batching ve prefix caching internals'ını tuning yapabilirsiniz. Tensor / pipeline / expert parallelism ile multi-GPU distributed inference deploy edebilirsiniz. GGUF, AWQ, GPTQ, FP8, FP4 quantization stratejilerini cost-quality-throughput dengesi içinde uygulayabilirsiniz. Kubernetes (KServe, BentoML, Helm) üzerinde reproducible LLM serving platform kurabilirsiniz. Prometheus, Grafana, OpenTelemetry, DCGM ile production-grade observability sağlayabilirsiniz. TLS/mTLS, Vault, audit logging ve air-gapped deployment ile KVKK uyumlu security hardening yapabilirsiniz.

Ön koşullar ve önerilen birikim: Linux komut satırı, Docker ve Kubernetes temel deneyimi GPU/CUDA, network ve cloud infrastructure ile çalışma deneyimi Prometheus, Grafana veya benzeri observability tool deneyimi (öneri) Bash veya Python ile DevOps scripting becerisi Eğitim sırasında kullanılabilecek bir GPU makinesi veya cloud GPU erişimi (RunPod, Lambda, vast.ai) Hugging Face hesabı (eğitmen yardımıyla oluşturulabilir)

Ollama (geliştirici / edge) ve vLLM (production serving) internals'ını uçtan uca işleyen Türkiye'deki tek production-grade on-premise LLM deployment programı
vLLM'in PagedAttention, continuous batching, prefix caching ve speculative decoding tekniklerini internals derinliğinde anlatan benzersiz teknik kapsam
NVIDIA H100/H200/B200, AMD MI300X, Intel Gaudi3 donanım karşılaştırması ve multi-GPU topoloji (NVLink, InfiniBand) capacity planning ile mimari karar olgunluğu
Tensor / pipeline / expert parallelism ile multi-GPU distributed inference; TGI, SGLang, TensorRT-LLM ile karşılaştırmalı engine seçim matrisi
Kubernetes (KServe, BentoML, Helm), GPU-aware HPA + KEDA auto-scaling, Prometheus + Grafana + DCGM observability, multi-tenant ve cost optimization disiplini
KVKK 'yurt dışı transfer', BDDK / EPDK / SGK / EU AI Act çerçevesinde air-gapped deployment ve compliance governance kapsayan kurumsal güvenlik perspektifi

Anahtar Çıkarımlar

On-prem vs API model TCO modellemesi ile mimari karar verebilirsiniz.
NVIDIA, AMD ve Intel GPU ekosistemleri arasında donanım seçimi ve capacity planning yapabilirsiniz.
Ollama'yı geliştirici, edge ve branch office senaryolarında profesyonelce kurabilirsiniz.
vLLM'in PagedAttention, continuous batching ve prefix caching internals'ını tuning yapabilirsiniz.
Tensor / pipeline / expert parallelism ile multi-GPU distributed inference deploy edebilirsiniz.
GGUF, AWQ, GPTQ, FP8, FP4 quantization stratejilerini cost-quality-throughput dengesi içinde uygulayabilirsiniz.
Kubernetes (KServe, BentoML, Helm) üzerinde reproducible LLM serving platform kurabilirsiniz.
Prometheus, Grafana, OpenTelemetry, DCGM ile production-grade observability sağlayabilirsiniz.
TLS/mTLS, Vault, audit logging ve air-gapped deployment ile KVKK uyumlu security hardening yapabilirsiniz.

İleri Seviye3 Gün

Ollama ve vLLM ile On-Premise LLM Deployment Eğitimi

Hemen Kaydol

Eğitim Hakkında

Bu eğitim, açık kaynak büyük dil modellerini kurumsal ölçekte production-grade altyapıda çalıştırmak isteyen DevOps engineer'lar, SRE'ler, ML Platform engineer'lar, infrastructure architect'leri ve cloud architect'ler için tasarlanmıştır. Programın merkezinde şu yaklaşım yer alır: On-premise LLM deployment, basitçe 'Ollama'yı bir sunucuya kurup port aç' değildir. Gerçek operasyonel değer; doğru donanım seçimini VRAM math ve throughput projeksiyonuyla yapmak, vLLM'in PagedAttention ve continuous batching internals'ını anlayıp tuning yapmak, tensor / pipeline / expert parallelism stratejileriyle multi-GPU deployment kurmak, Prometheus + Grafana + OpenTelemetry + DCGM ile production observability sağlamak, Kubernetes üzerinde KServe / BentoML / Helm ile reproducible deployment yapmak, GPU-aware HPA ve KEDA ile auto-scaling kurmak, spot instance ve hybrid model routing ile cost optimize etmek, TLS/mTLS / Vault / audit logging ile security hardening yapmak ve tüm bu sistemi KVKK uyumlu air-gapped topolojide işletmekle oluşur.

Türkiye'de açık kaynak LLM kurulumuyla ilgili içerik son iki yılda hızla genişledi; ancak bu içeriklerin büyük çoğunluğu 'Ollama'yı macOS'ta kur, bir model çek, sor cevap al' düzeyinde kalıyor. Bu eğitim, söz konusu yüzeysel seviyeyi tamamen aşıp inference engine internals + multi-GPU distributed serving + Kubernetes platform engineering + production observability + KVKK air-gapped compliance gibi konuları aynı program içinde işleyen tek kapsamlı Türkçe referans olmak üzere tasarlanmıştır. Hedef kitle ML/data engineer değil; production altyapıyı işleten DevOps engineer, SRE, ML Platform engineer ve infrastructure architect rolleridir. Eğitim Python ML mühendisliğine değil, platform mühendisliği ve operasyonel disipline odaklıdır.

Programın stratejik bir boyutu, on-premise LLM deployment'ın hangi senaryolarda gerçekten gerekli olduğunu netleştirmesidir. KVKK 'yurt dışı transfer' kuralları, BDDK (bankacılık), EPDK (enerji), SGK (sağlık) sektör düzenlemeleri ve EU AI Act çerçevesinde self-hosted serving birçok kurumsal müşteri için zorunlu bir mimari karardır. Aynı zamanda yüksek token hacimleri (100M+/ay), low tail latency ihtiyacı veya domain-specific fine-tuned modellerin operasyonelleştirilmesi gibi durumlarda da self-hosted ekonomik açıdan API modellerinin önüne geçer. Bu eğitim, on-prem vs API model TCO modellemesini break-even noktasıyla birlikte detaylı ele alır; hybrid (sıcak path API, soğuk path on-prem) strateji de gösterilir.

Donanım modülü, eğitimin altyapı omurgasını oluşturur. NVIDIA H100, H200, B100, B200, GB200 spec ve performance; AMD MI300X, MI325X, MI350 ekosistemi; Intel Gaudi3 ve diğer alternative accelerator'lar; RTX 4090/5090 ile prototipleme senaryoları karşılaştırmalı işlenir. VRAM math (model parameters × bytes-per-param + KV cache); batch size, sequence length ve context window etkisi; throughput projeksiyonu (tokens/sec, requests/sec, p99 latency) uçtan uca öğretilir. Multi-GPU topolojilerinde PCIe vs NVLink vs NVSwitch bandwidth farkı; multi-node InfiniBand ve RDMA gereksinimleri; DGX, HGX referans mimari ve custom build seçenekleri detaylı ele alınır. Bu modül, donanım yatırımı yapacak veya bulut GPU satın alacak ekiplere doğrudan uygulanabilir karar matrisi sağlar.

Ollama modülü, geliştirici / edge / branch office senaryolarında derinleşir. Ollama'nın llama.cpp tabanlı backend mimarisi, ggml/gguf format mantığı, model registry akışı, OpenAI-compatible API katmanı internals seviyesinde ele alınır. Modelfile direktifleri (FROM, PARAMETER, TEMPLATE, SYSTEM), custom model üretimi, LoRA adapter merging gibi customization teknikleri uygulamalı işlenir. Production Ollama tarafında OLLAMA_HOST, OLLAMA_KEEP_ALIVE, OLLAMA_NUM_PARALLEL yapılandırması, GPU passthrough, docker/podman entegrasyonu ve branch office / edge node deployment patterns kapsamlı şekilde ele alınır.

vLLM modülü, eğitimin teknik derinleşme zirvesidir. vLLM'in production-grade serving paradigmasını oluşturan iki temel inovasyon — PagedAttention (KV cache fragmentation çözümü) ve continuous batching (throughput optimization) — internals düzeyinde ele alınır. PagedAttention'ın page tabanlı KV cache yönetimi ve OS analojisi; memory utilization metrikleri; static batching vs continuous batching throughput analizi; request scheduler ve preemption mantığı; max_num_batched_tokens ve max_num_seqs tuning konuları detaylı işlenir. İleri optimizasyonlar olarak prefix caching (shared system prompt avantajı), speculative decoding (draft model kullanımı), chunked prefill (long-context handling) ve guided decoding (Outlines, lm-format-enforcer entegrasyonu) uygulamalı şekilde gösterilir.

Quantization stratejileri modülü, donanım kısıtlarında maksimum performans için kritiktir. GGUF (Q2_K, Q3_K_M, Q4_K_M, Q5_K_M, Q6_K, Q8_0); AWQ vs GPTQ (weight-only vs activation-aware); FP8 native (H100 ve sonrası); FP4 (Blackwell B100+); EXL2 ve ExLlamaV2 detaylı karşılaştırılır. Quantization-induced quality regression ölçümü (perplexity, MMLU); domain-specific quality kayıp analizi; throughput vs latency optimizasyonu; tail latency (p99, p999) yönetimi; vLLM benchmark_serving ve GenAI-Perf gibi benchmarking tool'lar uygulamalı işlenir.

Multi-GPU ve distributed inference modülü, büyük modelleri (70B, 405B, 671B) tek GPU'ya sığdırmanın ötesine geçer. Tensor parallelism (matmul splitting), pipeline parallelism (layer-wise split), expert parallelism (MoE-specific routing) ve hybrid 3D parallelism teknikleri ele alınır. vLLM tarafında tensor_parallel_size ve pipeline_parallel_size tuning, NCCL / NVLink / InfiniBand backend yapılandırması, Ray cluster ile multi-node orchestration uygulamalı işlenir. Ayrıca TGI (Hugging Face Rust backend), SGLang (RadixAttention, JSON schema-constrained generation), NVIDIA TensorRT-LLM (peak performance), Triton Inference Server, llama.cpp server, lmdeploy, MLX Server gibi alternative engine'ler karşılaştırmalı ele alınır ve use case bazlı engine seçim matrisi sunulur.

Production observability modülü, eğitimin operasyonel disiplin boyutunu temsil eder. vLLM'in /metrics endpoint'ini Prometheus ile scrape etmek; TTFT (time-to-first-token), TPOT (time-per-output-token), throughput, queue depth gibi vLLM Prometheus metrikleri; Grafana dashboard template'leri; NVIDIA DCGM ile GPU monitoring; structured logging (request_id, prompt hash, completion length); OpenTelemetry trace propagation; Loki / Elastic / Datadog log aggregation detaylı işlenir. Alerting tarafında GPU OOM, queue saturation, p99 latency spike alerting; runbook tasarımı; postmortem disiplini uygulamalı şekilde ele alınır.

Kubernetes modülü, on-premise LLM serving'i kurumsal platform mühendisliği seviyesine taşır. NVIDIA GPU Operator ve nvidia-device-plugin yapılandırması; GPU node taints, tolerations, scheduling; MIG (Multi-Instance GPU) ile fractional GPU; KServe / Knative serverless LLM serving; BentoML ile model packaging; ModelMesh ve Ray Serve karşılaştırması; Helm chart ile reproducible vLLM deployment; Argo CD ile GitOps-based delivery konuları uçtan uca işlenir. Auto-scaling tarafında HPA custom metrics tabanlı scaling, KEDA event-driven autoscaling, cold start optimization, warm pool stratejisi ele alınır. Cost optimization olarak spot instance / preemptible VM / reserved capacity karışımı; model routing (Haiku/Sonnet local vs cloud API hybrid); unit economics (cost-per-token, cost-per-user) ölçümü; multi-tenant inference (namespace isolation, fair scheduling, per-tenant rate limiting) detaylı işlenir.

Security modülü, eğitimin compliance ve governance disiplinini kapsar. TLS / mTLS ile endpoint encryption; internal API gateway ve service mesh (Istio, Linkerd); network policy ve micro-segmentation; HashiCorp Vault ve External Secrets Operator entegrasyonu; kim hangi prompt'u attı audit logging; PII masking ve secret scanning hook'ları; internet bağlantısı olmayan ortamda model dağıtımı; local container registry ve mirror ekosistemi; compliance dokümantasyonu ve denetim hazırlığı uygulamalı işlenir. KVKK 'yurt dışı transfer' kuralları, BDDK / EPDK / SGK sektör düzenlemeleri ve EU AI Act çerçevesinde air-gapped deployment senaryoları detaylı şekilde ele alınır.

Capstone projesinde her katılımcı, kendi şirketi için uçtan uca production-grade bir on-premise LLM serving platformu tasarlar: donanım, engine ve quantization tercihi; Kubernetes deployment, observability ve auto-scaling planı; KVKK uyumlu air-gapped topoloji; cost projection ve performance baseline; ops runbook ve incident response prosedürleri. Eğitim sonunda katılımcılar; on-premise LLM serving'i mimari, operasyonel ve compliance boyutlarıyla bütünleşik yönetebilecek, Ollama ve vLLM internals'ına hakim olacak, multi-GPU distributed inference deployment yapabilecek, production observability ve auto-scaling kurabilecek, Kubernetes üzerinde reproducible LLM serving platform inşa edebilecek, cost optimization ile unit economics ölçebilecek ve KVKK uyumlu air-gapped deployment ile regülasyonlu sektörlerin gereksinimlerini karşılayabilecek seviyede teknik ve mimari yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 80'in üzerinde uygulamalı ders içerir.

Eğitim Metodolojisi

Ollama (geliştirici / edge) ve vLLM (production serving) internals'ını uçtan uca işleyen Türkiye'deki tek production-grade on-premise LLM deployment programı

vLLM'in PagedAttention, continuous batching, prefix caching ve speculative decoding tekniklerini internals derinliğinde anlatan benzersiz teknik kapsam

NVIDIA H100/H200/B200, AMD MI300X, Intel Gaudi3 donanım karşılaştırması ve multi-GPU topoloji (NVLink, InfiniBand) capacity planning ile mimari karar olgunluğu

Tensor / pipeline / expert parallelism ile multi-GPU distributed inference; TGI, SGLang, TensorRT-LLM ile karşılaştırmalı engine seçim matrisi

Kubernetes (KServe, BentoML, Helm), GPU-aware HPA + KEDA auto-scaling, Prometheus + Grafana + DCGM observability, multi-tenant ve cost optimization disiplini

KVKK 'yurt dışı transfer', BDDK / EPDK / SGK / EU AI Act çerçevesinde air-gapped deployment ve compliance governance kapsayan kurumsal güvenlik perspektifi

Kimler İçindir?

Kurumsal AI serving infrastructure'ı kurmak ve işletmek isteyen DevOps engineer ve Site Reliability Engineer'lar (SRE)

ML Platform engineer, AI Platform team lead ve internal developer platform inşa eden ekipler

GPU cluster, Kubernetes ve multi-tenant serving altyapısı yöneten infrastructure architect'ler

KVKK / BDDK / EPDK / SGK gibi regülasyonlu sektörler için air-gapped AI serving kurma sorumluluğu olan technical leadlar

Self-hosted LLM ROI'sini düşürmek isteyen FinOps ekipleri ve cost optimization odaklı CTO'lar

Mevcut LangChain / LlamaIndex / agent uygulamalarını production-grade self-hosted backend ile çalıştırmak isteyen mühendislik liderleri

Neden Bu Eğitim?

Yüzeysel 'Ollama'yı kur, model çek' içeriklerinin ötesine geçen Türkiye'nin tek production-grade on-premise LLM deployment programıdır.

vLLM'in PagedAttention ve continuous batching internals'ını mimari derinlikte ele alarak gerçek tuning yapma yetkinliği kazandırır.

NVIDIA, AMD ve Intel GPU ekosistemlerini karşılaştırarak donanım yatırım kararlarına direkt uygulanabilir capacity planning matrisi sağlar.

Multi-GPU distributed inference (TP / PP / EP) ile büyük modelleri (70B, 405B, 671B) production'a almanın mühendislik disiplinini kurar.

Kubernetes (KServe, BentoML, Helm), auto-scaling (HPA, KEDA), observability (Prometheus, Grafana, DCGM) ile production-grade platform engineering öğretir.

KVKK / BDDK / EPDK / SGK / EU AI Act çerçevesinde air-gapped deployment ve compliance governance konularıyla regülasyonlu sektörlerin gereksinimlerini karşılar.

Kazanımlar

On-prem vs API model TCO modellemesi ile mimari karar verebilirsiniz.

NVIDIA, AMD ve Intel GPU ekosistemleri arasında donanım seçimi ve capacity planning yapabilirsiniz.

Ollama'yı geliştirici, edge ve branch office senaryolarında profesyonelce kurabilirsiniz.

vLLM'in PagedAttention, continuous batching ve prefix caching internals'ını tuning yapabilirsiniz.

Tensor / pipeline / expert parallelism ile multi-GPU distributed inference deploy edebilirsiniz.

GGUF, AWQ, GPTQ, FP8, FP4 quantization stratejilerini cost-quality-throughput dengesi içinde uygulayabilirsiniz.

Kubernetes (KServe, BentoML, Helm) üzerinde reproducible LLM serving platform kurabilirsiniz.

Prometheus, Grafana, OpenTelemetry, DCGM ile production-grade observability sağlayabilirsiniz.

TLS/mTLS, Vault, audit logging ve air-gapped deployment ile KVKK uyumlu security hardening yapabilirsiniz.

Gereksinimler

Linux komut satırı, Docker ve Kubernetes temel deneyimi

GPU/CUDA, network ve cloud infrastructure ile çalışma deneyimi

Prometheus, Grafana veya benzeri observability tool deneyimi (öneri)

Bash veya Python ile DevOps scripting becerisi

Eğitim sırasında kullanılabilecek bir GPU makinesi veya cloud GPU erişimi (RunPod, Lambda, vast.ai)

Hugging Face hesabı (eğitmen yardımıyla oluşturulabilir)

Eğitim Müfredatı

103 Ders

Modül 1: On-Premise LLM Deployment Stratejisi ve 2026 Manzarası9 Ders

Modül 2: Donanım Seçimi ve Capacity Planning10 Ders

Modül 3: Ollama Derinleşmesi — Geliştirici Deneyimi ve Edge Deployment9 Ders

Modül 4: vLLM Mimari Derinleşmesi — PagedAttention ve Continuous Batching10 Ders

Modül 5: Quantization Stratejileri ve Performance Tuning9 Ders

Modül 6: Multi-GPU ve Distributed Inference9 Ders

Modül 7: TGI, SGLang ve Alternative Inference Engine'ler9 Ders

Modül 8: Production Observability — Metrics, Logging, Tracing8 Ders

Modül 9: Kubernetes ile LLM Serving — KServe, BentoML, Helm8 Ders

Modül 10: Auto-Scaling, Cost Optimization ve Multi-Tenant Serving9 Ders

Modül 11: Security, Compliance ve KVKK Uyumlu Air-Gapped Deployment9 Ders

Modül 12: Capstone — Kurumsal On-Premise LLM Platform4 Ders

Eğitmen

Şükrü Yusuf KAYA

Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı

Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.

Sıkça Sorulan Sorular

Eğitime Başvur

Sınırlı kontenjan ile butik eğitim.

Gelecek Gruplara Kayıt

Sıradaki grup açıldığında öncelikli bilgi almak için kaydınızı bırakın.

Canlı & İnteraktif Oturumlar

Proje Bazlı Öğrenme

Sektör Odaklı Müfredat

Profesyonel Networking

Birebir Danışmanlık

Eğitmen ile özel görüşme planlayın.

Kaydol

Kategoriler

AI Mühendisliği

Bu eğitim hakkında

Anahtar Çıkarımlar

Ollama ve vLLM ile On-Premise LLM Deployment Eğitimi