Bu eğitim hakkında
Açık kaynak LLM'leri kurumsal ölçekte on-premise deploy etmek isteyen DevOps, SRE ve ML Platform engineer'ları için Ollama ve vLLM internals'ından multi-GPU distributed inference, Kubernetes serving, production observability ve KVKK uyumlu air-gapped deployment'a uzanan 3 günlük ileri seviye program.
Bu eğitim şu kitleler için tasarlanmıştır: Kurumsal AI serving infrastructure'ı kurmak ve işletmek isteyen DevOps engineer ve Site Reliability Engineer'lar (SRE) ML Platform engineer, AI Platform team lead ve internal developer platform inşa eden ekipler GPU cluster, Kubernetes ve multi-tenant serving altyapısı yöneten infrastructure architect'ler KVKK / BDDK / EPDK / SGK gibi regülasyonlu sektörler için air-gapped AI serving kurma sorumluluğu olan technical leadlar Self-hosted LLM ROI'sini düşürmek isteyen FinOps ekipleri ve cost optimization odaklı CTO'lar Mevcut LangChain / LlamaIndex / agent uygulamalarını production-grade self-hosted backend ile çalıştırmak isteyen mühendislik liderleri
Bu eğitim neden önemli: Yüzeysel 'Ollama'yı kur, model çek' içeriklerinin ötesine geçen Türkiye'nin tek production-grade on-premise LLM deployment programıdır. vLLM'in PagedAttention ve continuous batching internals'ını mimari derinlikte ele alarak gerçek tuning yapma yetkinliği kazandırır. NVIDIA, AMD ve Intel GPU ekosistemlerini karşılaştırarak donanım yatırım kararlarına direkt uygulanabilir capacity planning matrisi sağlar. Multi-GPU distributed inference (TP / PP / EP) ile büyük modelleri (70B, 405B, 671B) production'a almanın mühendislik disiplinini kurar. Kubernetes (KServe, BentoML, Helm), auto-scaling (HPA, KEDA), observability (Prometheus, Grafana, DCGM) ile production-grade platform engineering öğretir. KVKK / BDDK / EPDK / SGK / EU AI Act çerçevesinde air-gapped deployment ve compliance governance konularıyla regülasyonlu sektörlerin gereksinimlerini karşılar.
Eğitim sonunda kazanacağınız çıktılar: On-prem vs API model TCO modellemesi ile mimari karar verebilirsiniz. NVIDIA, AMD ve Intel GPU ekosistemleri arasında donanım seçimi ve capacity planning yapabilirsiniz. Ollama'yı geliştirici, edge ve branch office senaryolarında profesyonelce kurabilirsiniz. vLLM'in PagedAttention, continuous batching ve prefix caching internals'ını tuning yapabilirsiniz. Tensor / pipeline / expert parallelism ile multi-GPU distributed inference deploy edebilirsiniz. GGUF, AWQ, GPTQ, FP8, FP4 quantization stratejilerini cost-quality-throughput dengesi içinde uygulayabilirsiniz. Kubernetes (KServe, BentoML, Helm) üzerinde reproducible LLM serving platform kurabilirsiniz. Prometheus, Grafana, OpenTelemetry, DCGM ile production-grade observability sağlayabilirsiniz. TLS/mTLS, Vault, audit logging ve air-gapped deployment ile KVKK uyumlu security hardening yapabilirsiniz.
Ön koşullar ve önerilen birikim: Linux komut satırı, Docker ve Kubernetes temel deneyimi GPU/CUDA, network ve cloud infrastructure ile çalışma deneyimi Prometheus, Grafana veya benzeri observability tool deneyimi (öneri) Bash veya Python ile DevOps scripting becerisi Eğitim sırasında kullanılabilecek bir GPU makinesi veya cloud GPU erişimi (RunPod, Lambda, vast.ai) Hugging Face hesabı (eğitmen yardımıyla oluşturulabilir)
- Ollama (geliştirici / edge) ve vLLM (production serving) internals'ını uçtan uca işleyen Türkiye'deki tek production-grade on-premise LLM deployment programı
- vLLM'in PagedAttention, continuous batching, prefix caching ve speculative decoding tekniklerini internals derinliğinde anlatan benzersiz teknik kapsam
- NVIDIA H100/H200/B200, AMD MI300X, Intel Gaudi3 donanım karşılaştırması ve multi-GPU topoloji (NVLink, InfiniBand) capacity planning ile mimari karar olgunluğu
- Tensor / pipeline / expert parallelism ile multi-GPU distributed inference; TGI, SGLang, TensorRT-LLM ile karşılaştırmalı engine seçim matrisi
- Kubernetes (KServe, BentoML, Helm), GPU-aware HPA + KEDA auto-scaling, Prometheus + Grafana + DCGM observability, multi-tenant ve cost optimization disiplini
- KVKK 'yurt dışı transfer', BDDK / EPDK / SGK / EU AI Act çerçevesinde air-gapped deployment ve compliance governance kapsayan kurumsal güvenlik perspektifi
Anahtar Çıkarımlar
- On-prem vs API model TCO modellemesi ile mimari karar verebilirsiniz.
- NVIDIA, AMD ve Intel GPU ekosistemleri arasında donanım seçimi ve capacity planning yapabilirsiniz.
- Ollama'yı geliştirici, edge ve branch office senaryolarında profesyonelce kurabilirsiniz.
- vLLM'in PagedAttention, continuous batching ve prefix caching internals'ını tuning yapabilirsiniz.
- Tensor / pipeline / expert parallelism ile multi-GPU distributed inference deploy edebilirsiniz.
- GGUF, AWQ, GPTQ, FP8, FP4 quantization stratejilerini cost-quality-throughput dengesi içinde uygulayabilirsiniz.
- Kubernetes (KServe, BentoML, Helm) üzerinde reproducible LLM serving platform kurabilirsiniz.
- Prometheus, Grafana, OpenTelemetry, DCGM ile production-grade observability sağlayabilirsiniz.
- TLS/mTLS, Vault, audit logging ve air-gapped deployment ile KVKK uyumlu security hardening yapabilirsiniz.
Ollama ve vLLM ile On-Premise LLM Deployment Eğitimi
Açık kaynak LLM'leri kurumsal ölçekte on-premise deploy etmek isteyen DevOps, SRE ve ML Platform engineer'ları için Ollama ve vLLM internals'ından multi-GPU distributed inference, Kubernetes serving, production observability ve KVKK uyumlu air-gapped deployment'a uzanan 3 günlük ileri seviye program.
Eğitim Hakkında
Bu eğitim, açık kaynak büyük dil modellerini kurumsal ölçekte production-grade altyapıda çalıştırmak isteyen DevOps engineer'lar, SRE'ler, ML Platform engineer'lar, infrastructure architect'leri ve cloud architect'ler için tasarlanmıştır. Programın merkezinde şu yaklaşım yer alır: On-premise LLM deployment, basitçe 'Ollama'yı bir sunucuya kurup port aç' değildir. Gerçek operasyonel değer; doğru donanım seçimini VRAM math ve throughput projeksiyonuyla yapmak, vLLM'in PagedAttention ve continuous batching internals'ını anlayıp tuning yapmak, tensor / pipeline / expert parallelism stratejileriyle multi-GPU deployment kurmak, Prometheus + Grafana + OpenTelemetry + DCGM ile production observability sağlamak, Kubernetes üzerinde KServe / BentoML / Helm ile reproducible deployment yapmak, GPU-aware HPA ve KEDA ile auto-scaling kurmak, spot instance ve hybrid model routing ile cost optimize etmek, TLS/mTLS / Vault / audit logging ile security hardening yapmak ve tüm bu sistemi KVKK uyumlu air-gapped topolojide işletmekle oluşur.
Türkiye'de açık kaynak LLM kurulumuyla ilgili içerik son iki yılda hızla genişledi; ancak bu içeriklerin büyük çoğunluğu 'Ollama'yı macOS'ta kur, bir model çek, sor cevap al' düzeyinde kalıyor. Bu eğitim, söz konusu yüzeysel seviyeyi tamamen aşıp inference engine internals + multi-GPU distributed serving + Kubernetes platform engineering + production observability + KVKK air-gapped compliance gibi konuları aynı program içinde işleyen tek kapsamlı Türkçe referans olmak üzere tasarlanmıştır. Hedef kitle ML/data engineer değil; production altyapıyı işleten DevOps engineer, SRE, ML Platform engineer ve infrastructure architect rolleridir. Eğitim Python ML mühendisliğine değil, platform mühendisliği ve operasyonel disipline odaklıdır.
Programın stratejik bir boyutu, on-premise LLM deployment'ın hangi senaryolarda gerçekten gerekli olduğunu netleştirmesidir. KVKK 'yurt dışı transfer' kuralları, BDDK (bankacılık), EPDK (enerji), SGK (sağlık) sektör düzenlemeleri ve EU AI Act çerçevesinde self-hosted serving birçok kurumsal müşteri için zorunlu bir mimari karardır. Aynı zamanda yüksek token hacimleri (100M+/ay), low tail latency ihtiyacı veya domain-specific fine-tuned modellerin operasyonelleştirilmesi gibi durumlarda da self-hosted ekonomik açıdan API modellerinin önüne geçer. Bu eğitim, on-prem vs API model TCO modellemesini break-even noktasıyla birlikte detaylı ele alır; hybrid (sıcak path API, soğuk path on-prem) strateji de gösterilir.
Donanım modülü, eğitimin altyapı omurgasını oluşturur. NVIDIA H100, H200, B100, B200, GB200 spec ve performance; AMD MI300X, MI325X, MI350 ekosistemi; Intel Gaudi3 ve diğer alternative accelerator'lar; RTX 4090/5090 ile prototipleme senaryoları karşılaştırmalı işlenir. VRAM math (model parameters × bytes-per-param + KV cache); batch size, sequence length ve context window etkisi; throughput projeksiyonu (tokens/sec, requests/sec, p99 latency) uçtan uca öğretilir. Multi-GPU topolojilerinde PCIe vs NVLink vs NVSwitch bandwidth farkı; multi-node InfiniBand ve RDMA gereksinimleri; DGX, HGX referans mimari ve custom build seçenekleri detaylı ele alınır. Bu modül, donanım yatırımı yapacak veya bulut GPU satın alacak ekiplere doğrudan uygulanabilir karar matrisi sağlar.
Ollama modülü, geliştirici / edge / branch office senaryolarında derinleşir. Ollama'nın llama.cpp tabanlı backend mimarisi, ggml/gguf format mantığı, model registry akışı, OpenAI-compatible API katmanı internals seviyesinde ele alınır. Modelfile direktifleri (FROM, PARAMETER, TEMPLATE, SYSTEM), custom model üretimi, LoRA adapter merging gibi customization teknikleri uygulamalı işlenir. Production Ollama tarafında OLLAMA_HOST, OLLAMA_KEEP_ALIVE, OLLAMA_NUM_PARALLEL yapılandırması, GPU passthrough, docker/podman entegrasyonu ve branch office / edge node deployment patterns kapsamlı şekilde ele alınır.
vLLM modülü, eğitimin teknik derinleşme zirvesidir. vLLM'in production-grade serving paradigmasını oluşturan iki temel inovasyon — PagedAttention (KV cache fragmentation çözümü) ve continuous batching (throughput optimization) — internals düzeyinde ele alınır. PagedAttention'ın page tabanlı KV cache yönetimi ve OS analojisi; memory utilization metrikleri; static batching vs continuous batching throughput analizi; request scheduler ve preemption mantığı; max_num_batched_tokens ve max_num_seqs tuning konuları detaylı işlenir. İleri optimizasyonlar olarak prefix caching (shared system prompt avantajı), speculative decoding (draft model kullanımı), chunked prefill (long-context handling) ve guided decoding (Outlines, lm-format-enforcer entegrasyonu) uygulamalı şekilde gösterilir.
Quantization stratejileri modülü, donanım kısıtlarında maksimum performans için kritiktir. GGUF (Q2_K, Q3_K_M, Q4_K_M, Q5_K_M, Q6_K, Q8_0); AWQ vs GPTQ (weight-only vs activation-aware); FP8 native (H100 ve sonrası); FP4 (Blackwell B100+); EXL2 ve ExLlamaV2 detaylı karşılaştırılır. Quantization-induced quality regression ölçümü (perplexity, MMLU); domain-specific quality kayıp analizi; throughput vs latency optimizasyonu; tail latency (p99, p999) yönetimi; vLLM benchmark_serving ve GenAI-Perf gibi benchmarking tool'lar uygulamalı işlenir.
Multi-GPU ve distributed inference modülü, büyük modelleri (70B, 405B, 671B) tek GPU'ya sığdırmanın ötesine geçer. Tensor parallelism (matmul splitting), pipeline parallelism (layer-wise split), expert parallelism (MoE-specific routing) ve hybrid 3D parallelism teknikleri ele alınır. vLLM tarafında tensor_parallel_size ve pipeline_parallel_size tuning, NCCL / NVLink / InfiniBand backend yapılandırması, Ray cluster ile multi-node orchestration uygulamalı işlenir. Ayrıca TGI (Hugging Face Rust backend), SGLang (RadixAttention, JSON schema-constrained generation), NVIDIA TensorRT-LLM (peak performance), Triton Inference Server, llama.cpp server, lmdeploy, MLX Server gibi alternative engine'ler karşılaştırmalı ele alınır ve use case bazlı engine seçim matrisi sunulur.
Production observability modülü, eğitimin operasyonel disiplin boyutunu temsil eder. vLLM'in /metrics endpoint'ini Prometheus ile scrape etmek; TTFT (time-to-first-token), TPOT (time-per-output-token), throughput, queue depth gibi vLLM Prometheus metrikleri; Grafana dashboard template'leri; NVIDIA DCGM ile GPU monitoring; structured logging (request_id, prompt hash, completion length); OpenTelemetry trace propagation; Loki / Elastic / Datadog log aggregation detaylı işlenir. Alerting tarafında GPU OOM, queue saturation, p99 latency spike alerting; runbook tasarımı; postmortem disiplini uygulamalı şekilde ele alınır.
Kubernetes modülü, on-premise LLM serving'i kurumsal platform mühendisliği seviyesine taşır. NVIDIA GPU Operator ve nvidia-device-plugin yapılandırması; GPU node taints, tolerations, scheduling; MIG (Multi-Instance GPU) ile fractional GPU; KServe / Knative serverless LLM serving; BentoML ile model packaging; ModelMesh ve Ray Serve karşılaştırması; Helm chart ile reproducible vLLM deployment; Argo CD ile GitOps-based delivery konuları uçtan uca işlenir. Auto-scaling tarafında HPA custom metrics tabanlı scaling, KEDA event-driven autoscaling, cold start optimization, warm pool stratejisi ele alınır. Cost optimization olarak spot instance / preemptible VM / reserved capacity karışımı; model routing (Haiku/Sonnet local vs cloud API hybrid); unit economics (cost-per-token, cost-per-user) ölçümü; multi-tenant inference (namespace isolation, fair scheduling, per-tenant rate limiting) detaylı işlenir.
Security modülü, eğitimin compliance ve governance disiplinini kapsar. TLS / mTLS ile endpoint encryption; internal API gateway ve service mesh (Istio, Linkerd); network policy ve micro-segmentation; HashiCorp Vault ve External Secrets Operator entegrasyonu; kim hangi prompt'u attı audit logging; PII masking ve secret scanning hook'ları; internet bağlantısı olmayan ortamda model dağıtımı; local container registry ve mirror ekosistemi; compliance dokümantasyonu ve denetim hazırlığı uygulamalı işlenir. KVKK 'yurt dışı transfer' kuralları, BDDK / EPDK / SGK sektör düzenlemeleri ve EU AI Act çerçevesinde air-gapped deployment senaryoları detaylı şekilde ele alınır.
Capstone projesinde her katılımcı, kendi şirketi için uçtan uca production-grade bir on-premise LLM serving platformu tasarlar: donanım, engine ve quantization tercihi; Kubernetes deployment, observability ve auto-scaling planı; KVKK uyumlu air-gapped topoloji; cost projection ve performance baseline; ops runbook ve incident response prosedürleri. Eğitim sonunda katılımcılar; on-premise LLM serving'i mimari, operasyonel ve compliance boyutlarıyla bütünleşik yönetebilecek, Ollama ve vLLM internals'ına hakim olacak, multi-GPU distributed inference deployment yapabilecek, production observability ve auto-scaling kurabilecek, Kubernetes üzerinde reproducible LLM serving platform inşa edebilecek, cost optimization ile unit economics ölçebilecek ve KVKK uyumlu air-gapped deployment ile regülasyonlu sektörlerin gereksinimlerini karşılayabilecek seviyede teknik ve mimari yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 80'in üzerinde uygulamalı ders içerir.
Eğitim Metodolojisi
Ollama (geliştirici / edge) ve vLLM (production serving) internals'ını uçtan uca işleyen Türkiye'deki tek production-grade on-premise LLM deployment programı
vLLM'in PagedAttention, continuous batching, prefix caching ve speculative decoding tekniklerini internals derinliğinde anlatan benzersiz teknik kapsam
NVIDIA H100/H200/B200, AMD MI300X, Intel Gaudi3 donanım karşılaştırması ve multi-GPU topoloji (NVLink, InfiniBand) capacity planning ile mimari karar olgunluğu
Tensor / pipeline / expert parallelism ile multi-GPU distributed inference; TGI, SGLang, TensorRT-LLM ile karşılaştırmalı engine seçim matrisi
Kubernetes (KServe, BentoML, Helm), GPU-aware HPA + KEDA auto-scaling, Prometheus + Grafana + DCGM observability, multi-tenant ve cost optimization disiplini
KVKK 'yurt dışı transfer', BDDK / EPDK / SGK / EU AI Act çerçevesinde air-gapped deployment ve compliance governance kapsayan kurumsal güvenlik perspektifi
Kimler İçindir?
Neden Bu Eğitim?
Yüzeysel 'Ollama'yı kur, model çek' içeriklerinin ötesine geçen Türkiye'nin tek production-grade on-premise LLM deployment programıdır.
vLLM'in PagedAttention ve continuous batching internals'ını mimari derinlikte ele alarak gerçek tuning yapma yetkinliği kazandırır.
NVIDIA, AMD ve Intel GPU ekosistemlerini karşılaştırarak donanım yatırım kararlarına direkt uygulanabilir capacity planning matrisi sağlar.
Multi-GPU distributed inference (TP / PP / EP) ile büyük modelleri (70B, 405B, 671B) production'a almanın mühendislik disiplinini kurar.
Kubernetes (KServe, BentoML, Helm), auto-scaling (HPA, KEDA), observability (Prometheus, Grafana, DCGM) ile production-grade platform engineering öğretir.
KVKK / BDDK / EPDK / SGK / EU AI Act çerçevesinde air-gapped deployment ve compliance governance konularıyla regülasyonlu sektörlerin gereksinimlerini karşılar.
Kazanımlar
Gereksinimler
Eğitim Müfredatı
103 DersEğitmen

Şükrü Yusuf KAYA
Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı
Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.
Sıkça Sorulan Sorular
Eğitime Başvur
Sınırlı kontenjan ile butik eğitim.
Gelecek Gruplara Kayıt
Sıradaki grup açıldığında öncelikli bilgi almak için kaydınızı bırakın.
Birebir Danışmanlık
Eğitmen ile özel görüşme planlayın.
Kategoriler
İlgili eğitimler
Claude Code ile Profesyonel Yazılım Geliştirme Eğitimi
Anthropic'in agentic kodlama platformu Claude Code'u kurumsal seviyede ustalaşmak isteyen yazılım profesyonelleri için kapsamlı, ileri seviye 4 günlük eğitim programı. MCP entegrasyonları, Hooks, Sub-agents, Skills ve Claude Agent SDK ile production-grade agent mimarisi.
4 GünadvancedRLHF, DPO ve GRPO ile LLM Hizalama Mühendisliği Eğitimi
RLHF (PPO), DPO, KTO, IPO, SimPO, ORPO ve DeepSeek R1 GRPO algoritmalarını matematik + kod düzeyinde işleyen; reward model, Constitutional AI, RLAIF, reasoning model hizalaması ve TRL/Axolotl/LLaMA-Factory/OpenRLHF/verl araç zincirini production-grade biçimde öğreten 3 günlük ileri seviye Türkçe LLM hizalama eğitimi.
3 GünadvancedClaude Agent SDK ile AI Ajan Geliştirme Eğitimi
Anthropic'in Claude Agent SDK'sı ile production-grade AI ajanları geliştirmek isteyen yazılım mühendisleri için kapsamlı, ileri seviye 4 günlük program. Tool use orkestrasyonu, MCP server geliştirme, multi-agent desenleri, prompt caching ve evaluation engineering.
4 Günadvanced