RLHF, DPO ve GRPO arasındaki temel fark nedir? Hangisini ne zaman tercih etmeliyim?

Üçü de LLM'i insan tercihiyle hizalar; ancak yöntem farklı. RLHF (PPO) reward model + value model + policy üçlüsünü RL loop'unda eğitir — en güçlü ama en pahalı ve kararsız. DPO RL loop'unu tamamen ortadan kaldırarak reward modeli implicit hale getirir; basit, kararlı, hızlı — production'da default tercih. GRPO (DeepSeek R1) value modeli ortadan kaldırır ve advantage'ı grup-içi normalization ile hesaplar; özellikle reasoning model'ler ve rule-based reward (math, code) için PPO'dan üstün. Senaryo bazlı: classical chat asistanı → DPO; reasoning model (math/code) → GRPO; çok yüksek kalite + bütçe yoksa engel → PPO RLHF. Modül 1, 4, 5 ve 7 bu kararı somut benchmark'larla netleştirir.

Bu eğitim Türkçe LLM hizalamasına özel bilgi içeriyor mu?

Evet. Modül 2 Türkçe instruction dataset (Cosmos, Turkish UltraChat, Trendyol/KUIS) hazırlamayı; Modül 8 Türkçe + KVKK uyumlu principle set tasarımını; Modül 12 capstone ise Türkçe LLM hizalama pipeline'ı baştan sona kurmayı içerir. Türkiye'de Türkçe LLM hizalama disiplinine yönelik kapsamlı eğitim neredeyse yok — bu boşluk eğitim tasarımının merkezindedir.

Eğitim için ne tür GPU erişimi gerekiyor? Bulutta mı çalışacağız?

8B model SFT ve DPO için tek H100 (80GB) veya 2x A100 yeterli — RunPod, Lambda Labs, Modal saatlik ~$2-4. 70B GRPO içeren modüller için 4-8x H100 / B200 cluster (RunPod 2 saatlik kiralık) gerekli. Eğitim, katılımcılara bulut kaynak yapılandırması ve cost optimization rehberi sunar; isteyenler kendi setup'larıyla katılabilir. Tüm pratik egzersizler hem 8B (single GPU) hem 70B (multi-GPU) senaryolarını içerir.

DPO her zaman PPO'dan iyi mi? Anthropic ve Meta hâlâ PPO RLHF kullanıyor mu?

Hayır, DPO her zaman daha iyi değil. Anthropic, Meta ve OpenAI yüksek-kaliteli iterative RLHF (PPO) ve hibrit RLHF + DPO yaklaşımları kullanmaya devam ediyor. PPO'nun avantajı: online reward model ile policy birlikte iyileştirilebilir, novel response keşfedilebilir. DPO'nun dezavantajı: sabit preference dataset'e bağlı, distribution shift yaşar. 2026 trendi: hibrit pipeline'lar — DPO'yu cold-start, iterative DPO veya PPO'yu refinement aşaması olarak kullanmak. Modül 5.3 PPO vs DPO somut benchmark'larıyla kapsanır.

GRPO sadece reasoning modeller için mi? Klasik chat asistanında da kullanılabilir mi?

GRPO başlangıçta DeepSeek-Math (math reasoning) için tasarlandı ancak DeepSeek tarafından genel hizalamada da başarıyla kullanılıyor. Klasik chat'te avantajı: PPO'ya göre %50 daha az bellek (value model yok). Dezavantajı: rule-based reward gerektirir veya iyi bir reward model'e ihtiyaç duyar. Eğer pairwise preference dataset'iniz varsa DPO genelde daha basit; rule-based reward (math, code, format kontrolü) varsa GRPO daha güçlü. Modül 7.1 ve 7.3 bu kararı pratik karar matrisleriyle gösterir.

KTO, IPO, SimPO ve ORPO arasında nasıl karar vermeliyim?

Veri türü ve senaryo belirleyicidir. KTO: production telemetry (thumbs up/down) gibi binary feedback varsa — pairwise preference yok. IPO: küçük pairwise dataset, overfitting riski yüksek. SimPO: reference model maliyetini tamamen kaldırmak isteniyor, hızlı eğitim. ORPO: SFT + preference optimization tek aşamada birleştirilmek isteniyor (Llama 3.1 production pipeline'ı). Modül 6 bunların her birini formülasyon + dataset + benchmark üçlüsüyle ele alır ve karar ağacı sunar.

Reward hacking nedir ve nasıl tespit edilir?

Reward hacking, policy'nin reward sinyalini gerçek hedefin proxy'si olarak değil de doğrudan optimize edilecek hedef olarak kullanarak ortaya çıkardığı patolojik davranışlardır. Tipik biçimleri: (1) length collapse — kısa veya çok uzun yanıt; (2) sycophancy — kullanıcı görüşünü körü körüne onaylama; (3) EOS spam — erken sonlandırma; (4) format hacking — markdown bullet point bombardımanı; (5) repetition. Tespit: reward model kalibrasyonu, RewardBench safety subset, KL drift monitoring, AlpacaEval LC vs non-LC karşılaştırması. Modül 11 her birinin tespit ve mitigation reçetesini detaylı sunar.

Constitutional AI ve RLAIF gerçekten insan-etiketli RLHF kadar iyi mi?

Modern strong-model judge'lar (Claude Opus 4.7, GPT-5, Gemini 2.5 Pro) Chatbot Arena'da insan tercih agreement'ı %80-90 seviyesinde — bu Anthropic, Google ve OpenAI'ın 2024-2026'da RLAIF ile hizalanmış güçlü modellerin nedeni. Helpfulness ve genel kalite için RLAIF, insan-etiketli RLHF'e çok yakın veya eşdeğer; safety ve sycophancy gibi ince konularda hâlâ insan labeling'in marjinal avantajı var. Hibrit pipeline (RLAIF ana kütle, insan-label safety subset) production'da en yaygın 2026 yaklaşımı. Modül 8 bunu kanıt-tabanlı karşılaştırma ile gösterir.

TRL, Axolotl, LLaMA-Factory, OpenRLHF ve verl arasında hangisini seçmeliyim?

Scale + kullanım kolaylığı + custom reward esnekliği belirler. Tek 8B model + 1 GPU prototip → TRL (HuggingFace reference). 8B-70B + 8 GPU + production CI/CD → Axolotl (YAML config) veya OpenRLHF (Ray + DeepSpeed). 70B+ multi-node R1-scale GRPO → ByteDance verl (hybrid engine, en yüksek scale). UI istiyorsanız ve birçok modeli karşılaştırıyorsanız → LLaMA-Factory. Modül 10 her birinin somut karşılaştırma tablosunu (dataset format, custom reward, scaling, compute requirements) sunar.

Eğitim sonunda elimde hangi somut artefaktlar olacak?

Capstone projesinde şu artefaktlar üretilir: (1) Use case'inize özel uçtan uca Türkçe hizalama pipeline'ı (Python kod tabanı + YAML config); (2) Bradley-Terry reward model checkpoint; (3) DPO veya GRPO trained policy checkpoint; (4) RewardBench + AlpacaEval 2.0 LC + Türkçe MT-Bench değerlendirme raporu; (5) vLLM ile production deployment template; (6) Cost analizi (compute saatleri + dataset maliyeti); (7) EU AI Act + KVKK uyumluluk audit raporu; (8) 90 günlük operasyonel roadmap (online RLAIF feedback loop dahil).

Reasoning model (DeepSeek R1 tarzı) eğitmek için bu eğitim yeterli mi?

Evet — Modül 7 GRPO algoritmasını ve R1-Zero (pure RL) ile R1 (SFT cold-start + reasoning RL + general RL) pipeline'larını uçtan uca işler; Modül 9 reasoning-spesifik PRM, test-time compute, reasoning distillation konularını derinlemesine ele alır. Eğitim sonunda 7B-32B ölçeğinde kendi reasoning model'inizi (math/code/general) GRPO + rule-based reward ile eğitebilecek seviyeye ulaşırsınız. Multi-node 70B+ R1 scale için verl framework de pratik olarak gösterilir.

Eğitim kurumsal ekibimize özel uyarlanabilir mi?

Evet. Standart 3 günlük programın yanında, kurumsal müşteriler için özelleştirilmiş kapalı sınıf versiyonlar düzenliyoruz. Ekibinizin mevcut LLM stack'i (Llama / Qwen / Mistral / kendi modeli), compute altyapısı (AWS / GCP / Azure / on-premise H100/B200 cluster), domain (finans, sağlık, hukuk, kamu), compliance gereksinimleri (KVKK, EU AI Act, ISO/IEC 42001) ve dil hedefi (sadece Türkçe vs çok-dilli) dikkate alınarak modül ağırlıkları ve capstone senaryoları özelleştirilir.

Bu eğitim hakkında

RLHF (PPO), DPO, KTO, IPO, SimPO, ORPO ve DeepSeek R1 GRPO algoritmalarını matematik + kod düzeyinde işleyen; reward model, Constitutional AI, RLAIF, reasoning model hizalaması ve TRL/Axolotl/LLaMA-Factory/OpenRLHF/verl araç zincirini production-grade biçimde öğreten 3 günlük ileri seviye Türkçe LLM hizalama eğitimi.

Bu eğitim şu kitleler için tasarlanmıştır: Kurumsal LLM ürünlerini insan tercihiyle ve güvenlik kısıtlarıyla hizalamak isteyen ML Engineer'lar DeepSeek R1, OpenAI o3/o4 paradigmasında reasoning model eğitmek isteyen AI Researcher'lar Production'a giden agent / chat / RAG ürünlerinde sycophancy, jailbreak ve hallucination'ı azaltmak isteyen senior backend developer'lar Kendi açık kaynak LLM'sini (Türkçe veya domain-specific) hizalamak isteyen startup teknik liderleri RLHF disiplinini akademik düzeyden production seviyesine taşımak isteyen ML Platform ve MLOps mühendisleri KVKK + EU AI Act uyumlu LLM hizalama pipeline'ı kurması gereken kurumsal AI / governance liderleri

Bu eğitim neden önemli: Türkiye'de RLHF, DPO ve GRPO'yu matematik + kod + production üçlüsüyle uçtan uca işleyen tek ileri seviye programdır. DeepSeek R1 GRPO ve reasoning model paradigmasını 2026 itibarıyla güncel haliyle öğretir. DPO, KTO, IPO, SimPO, ORPO, cDPO ailesinin kanıt-tabanlı karşılaştırmalı analizini sunar. Constitutional AI ve RLAIF ile Anthropic Claude tarzı insan-etiket-bağımsız hizalama disiplini kazandırır. TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl beş framework'ün scale'e göre doğru seçim matrisini verir. RewardBench, AlpacaEval 2.0 LC, MT-Bench, Arena Hard ile production değerlendirme disiplini öğretir. Reward hacking, length collapse, KL drift gibi production failure mode'larını tespit ve mitigation'a bağlar. EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK ile compliance audit framework'ü kurar.

Eğitim sonunda kazanacağınız çıktılar: Bradley-Terry preference modelinden başlayarak production-grade reward model eğitebilirsiniz. PPO clipping objective'i ve KL penalty tuning'i ustaca yönetebilirsiniz. DPO matematiksel türevini kavrayarak β temperature'ı kanıt-tabanlı seçebilirsiniz. KTO, IPO, SimPO, ORPO, cDPO varyantları arasında doğru tercihi yapabilirsiniz. GRPO ile R1-scale reasoning model hizalama pipeline'ı kurabilirsiniz. Constitutional AI ve RLAIF ile AI-labeled preference dataset üretebilirsiniz. TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl arasında scale'e göre doğru tool seçebilirsiniz. RewardBench, AlpacaEval 2.0 LC, MT-Bench ile hizalama kalitesini doğrulayabilirsiniz. Reward hacking, length collapse, sycophancy ve KL drift'i tespit edip önleyebilirsiniz. EU AI Act + KVKK uyumluluk audit raporu üreterek hizalama süreçlerini compliance disiplinine bağlayabilirsiniz.

Ön koşullar ve önerilen birikim: Aktif Python deneyimi (orta-üst seviye), PyTorch ve HuggingFace Transformers temel kullanımı LLM fine-tuning ile temel deneyim (SFT, LoRA / QLoRA en azından kavramsal aşinalık) Linear algebra, olasılık ve gradient descent gibi ML temel matematiği Reinforcement Learning kavramlarına temel aşinalık (advantage, policy, reward — derinleştirme eğitimde yapılır) Eğitim öncesinde GPU erişimi (RunPod, Lambda Labs, Modal veya kendi setup) — H100/A100 önerilir Eğitim öncesinde HuggingFace + Weights & Biases hesabı

Türkiye'de RLHF, DPO ve GRPO algoritmalarını matematik + kod + production üçlüsüyle uçtan uca işleyen tek kapsamlı ileri seviye program
Bradley-Terry preference loss'tan DPO implicit reward türevine, PPO clipping objective'inden GRPO group-relative advantage hesabına kadar tam matematiksel inşa
KTO, IPO, SimPO, ORPO, cDPO modern preference optimization ailesinin karşılaştırmalı kanıt-tabanlı analizi
DeepSeek R1, R1-Zero, Qwen3 Reasoning ve Tülu 3 reasoning-model hizalama pipeline'larının iç yapısı
Constitutional AI ve RLAIF ile insan etiketi olmadan hizalama; Türkçe + KVKK uyumlu principle set tasarımı
TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl beş framework'lik production toolchain karşılaştırma matrisi
RewardBench, AlpacaEval 2.0 LC, MT-Bench, Arena Hard ile uçtan uca değerlendirme disiplini ve reward hacking mitigation
EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK uyumluluk audit framework'ü ile compliance entegrasyonu

Anahtar Çıkarımlar

Bradley-Terry preference modelinden başlayarak production-grade reward model eğitebilirsiniz.
PPO clipping objective'i ve KL penalty tuning'i ustaca yönetebilirsiniz.
DPO matematiksel türevini kavrayarak β temperature'ı kanıt-tabanlı seçebilirsiniz.
KTO, IPO, SimPO, ORPO, cDPO varyantları arasında doğru tercihi yapabilirsiniz.
GRPO ile R1-scale reasoning model hizalama pipeline'ı kurabilirsiniz.
Constitutional AI ve RLAIF ile AI-labeled preference dataset üretebilirsiniz.
TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl arasında scale'e göre doğru tool seçebilirsiniz.
RewardBench, AlpacaEval 2.0 LC, MT-Bench ile hizalama kalitesini doğrulayabilirsiniz.
Reward hacking, length collapse, sycophancy ve KL drift'i tespit edip önleyebilirsiniz.
EU AI Act + KVKK uyumluluk audit raporu üreterek hizalama süreçlerini compliance disiplinine bağlayabilirsiniz.

İleri Seviye3 Gün

RLHF, DPO ve GRPO ile LLM Hizalama Mühendisliği Eğitimi

Hemen Kaydol

Eğitim Hakkında

Bu eğitim, büyük dil modellerini (LLM) insan tercihleriyle ve güvenlik kısıtlarıyla hizalayan modern algoritmaların matematik temelini, pratik implementasyonunu ve production'a alımını uçtan uca öğretmek üzere tasarlanmıştır. 2022'de OpenAI InstructGPT ve Anthropic Constitutional AI ile başlayan; 2023'te DPO ile büyük bir paradigma değişikliği yaşayan; 2024'te IPO, KTO, SimPO, ORPO varyantlarıyla zenginleşen ve 2025'te DeepSeek R1'in GRPO algoritmasıyla reasoning model çağını açan LLM hizalama disiplini, modern AI mühendisliğinin merkezi konularından biridir. Türkiye'de bu disiplini matematik + kod + production üçlüsüyle birleştiren kapsamlı bir eğitim neredeyse yoktur; mevcut içerikler ya akademik düzlemde teorik kalıyor ya da örnek-kopyala düzeyinde yüzeysel kalıyor. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade LLM hizalama referans eğitimi olarak doldurmak üzere tasarlandı.

Eğitimin teorik omurgasını üç matematiksel pillar oluşturur: birincisi, klasik RLHF'in temeli olan Bradley-Terry preference modeli ve onun üzerine inşa edilen reward model (RM) eğitimi — sigmoid pairwise loss, K-wise Plackett-Luce genellemesi, classification head vs generative reward model (Nemotron-4 Reward, Skywork-Critic), Tülu 3 PRM (process reward) implementasyonu detaylı işlenir. İkincisi, PPO algoritmasının LLM'lere uyarlanması: policy gradient → importance sampling → clipped surrogate objective türevi, GAE (Generalized Advantage Estimation), KL penalty ile reference model'e uzaklık kontrolü, fixed β vs adaptive KL controller, vLLM ile yüksek throughput response sampling, reference model log-prob hesabının bellek-verimli yönetimi. Üçüncüsü, DPO'nun kapalı-form türevi: RLHF reward maximization probleminin r(x,y) = β log π_θ(y|x)/π_ref(y|x) implicit reward parametrizasyonu ile RL loop'unu tamamen ortadan kaldıran formülasyonu — bu türev eğitimde adım adım yapılır, β temperature'ın KL constraint dualitesi netleştirilir, β değerinin seçim cookbook'u verilir.

DPO sonrası 2024-2026 döneminde yayınlanan modern preference optimization ailesi karşılaştırmalı işlenir: IPO (Azar 2024) — overfitting'e karşı identity preference loss; cDPO (Conservative DPO) — noisy preference label'a dayanıklı varyant; KTO (Kahneman-Tversky Optimization) — prospect theory tabanlı, pairwise olmadan binary feedback (thumbs up/down) ile çalışma; SimPO — reference model gerektirmeyen length-normalized loss; ORPO — SFT ve preference optimization'ı tek aşamada birleştiren Llama 3.1 yaklaşımı; DPO-SDP — self-discovery preference. Her algoritmanın matematik formülasyonu adım adım türetilir, hangi veri türüyle (pairwise, binary, scalar) çalıştığı açıklanır, ve TRL DPOTrainer + Axolotl + OpenRLHF ile pratik implementation yapılır. Bu disiplinli karşılaştırma, ekibinizin kendi senaryosu için doğru tekniği kanıt-tabanlı seçmesini sağlar.

Programın en güncel bölümü, DeepSeek R1'in 2025'te tanıttığı GRPO (Group Relative Policy Optimization) algoritmasına ayrılmıştır. GRPO, PPO'da gerekli olan value (critic) modelini tamamen ortadan kaldırır ve advantage hesabını grup-içi normalization ile yapar: A_i = (r_i - mean(r)) / std(r). Bu yaklaşım hem bellek hem compute açısından PPO'ya göre yarı maliyet sağlar ve kararlılığı artırır. Eğitimde GRPO matematik düzeyinde türetilir, R1-Zero (cold-start SFT olmadan pure RL ile reasoning emergence) ve R1 (SFT cold-start → reasoning RL → general RL) pipeline'ları ayrı ayrı çözümlenir, rule-based reward (math accuracy, code execution, format compliance) tasarımı detaylanır. Production implementasyon için ByteDance verl framework (en yüksek scale GRPO), OpenRLHF (Ray + DeepSpeed multi-node) ve TRL GRPOTrainer (single-node prototype) karşılaştırmalı işlenir; vLLM rollout + FSDP training hibrit engine mimarisi pratik örneklerle gösterilir.

Anthropic'in 2022'den beri öncülük ettiği Constitutional AI ve onun genelleşmiş hali olan RLAIF (Reinforcement Learning from AI Feedback) ayrı bir modülde ele alınır. SL-CAI (critique → revision → revised response training data) ve RL-CAI (AI-labeled preference data ile reward model + PPO/DPO) aşamaları detaylı işlenir; Anthropic'in Claude 4.x ailesinde kullandığı principle set yapısı incelenir; Claude Opus 4.7, GPT-5 veya Gemini 2.5 Pro'yu strong-model-as-judge olarak kullanarak hibrit RLAIF pipeline kurma yöntemi gösterilir. Türkçe + KVKK + Türk hukukuna uyumlu principle set tasarımı pratik olarak yapılır; bu, Türkiye'de açılış pazarı olarak büyük değer üretir çünkü mevcut AI asistanların principle set'leri ağırlıklı İngilizce ve Batı hukuk sistemine kalibrelidir.

2025-2026 reasoning model çağının hizalama disiplini ayrı bir modülde ele alınır. OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think ve Claude Extended Thinking gibi reasoning model'ler outcome reward (rule-based, exact match) yerine — veya yanında — process reward model (PRM) kullanır: çözümün sadece doğru sonucu değil, her ara adımının kalitesi puanlanır. AllenAI Tülu 3 (2025) PRM yaklaşımı, OpenThoughts dataset'i, OLMo 2 reasoning pipeline'ı ve Qwen3'ün mixed-mode (thinking on/off) yaklaşımı detaylı işlenir. Snell scaling laws ile test-time compute'un pre-train compute'a göre marjinal kazanımı analiz edilir; reasoning distillation ile R1 → 7B/14B/32B kompakt modellere bilgi aktarımı pratik olarak yapılır.

Production preference optimization pipeline'larını kuran beş ana açık kaynak framework karşılaştırmalı ele alınır: HuggingFace TRL (referans implementasyon, SFTTrainer + RewardTrainer + DPOTrainer + PPOTrainer + GRPOTrainer); Axolotl (config-driven YAML pipeline); LLaMA-Factory (UI + multi-model preference optimization); OpenRLHF (Ray + DeepSpeed multi-node distributed RL); ByteDance verl (en yüksek scale GRPO için hybrid engine mimarisi). Her framework için dataset format, custom reward integration, scaling karakteristikleri ve compute requirements detaylı tabloyla işlenir; framework seçim matrisi katılımcıya somut karar yolu sunar — 8B model + tek GPU için TRL, 8B-70B + 8 GPU + production CI için Axolotl veya OpenRLHF, multi-node 70B+ R1-scale GRPO için verl.

Hizalama pipeline'ının doğrulama disiplini ayrı bir modülde ele alınır. Reward model değerlendirmesi RewardBench (Chat, Chat-Hard, Safety, Reasoning), JudgeBench ve RM-Bench ile yapılır; policy değerlendirmesi AlpacaEval 2.0 LC (length-controlled win rate), MT-Bench, Arena Hard (Claude Opus 4.7 veya GPT-5 judge ile) ve Chatbot Arena ELO ile gerçekleştirilir. Reward hacking tespiti için length collapse, sycophancy, EOS spam, format hacking, KL drift gibi tipik failure mode'lar pratik örneklerle gösterilir ve mitigation stratejileri (length-control reward, KL penalty tuning, early stopping kriterleri) sunulur. EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK uyumluluk audit checklist'i ile hizalama süreci kurumsal compliance disiplinine bağlanır.

Capstone modülünde her katılımcı, kendi use case'ine özel uçtan uca bir Türkçe LLM hizalama pipeline'ı tasarlar: base model seçimi (Llama 3.3, Qwen3, Gemma 3, Mistral); Türkçe SFT mix (Cosmos, Turkish UltraChat, kendi verisi); reward model eğitimi (Türkçe UltraFeedback preference dataset üzerinde); DPO/KTO/SimPO/GRPO arasında kanıt-tabanlı tercih; pipeline implementation (TRL veya Axolotl veya OpenRLHF); RewardBench + AlpacaEval 2.0 LC + Türkçe MT-Bench ile değerlendirme; vLLM ile production deployment; 90 günlük operasyonel roadmap (cost, KL drift monitoring, online RLAIF feedback loop). Eğitim sonunda katılımcılar; reward model'i Bradley-Terry preference loss'tan production seviyesinde inşa edebilecek; PPO'nun clipping objective'ini ve KL penalty tuning'ini ustaca yönetebilecek; DPO/KTO/SimPO/ORPO/IPO/cDPO arasında doğru tercihi kanıt-tabanlı yapabilecek; GRPO ile R1-scale reasoning model hizalayabilecek; Constitutional AI ve RLAIF pipeline'ları kurabilecek; TRL/Axolotl/LLaMA-Factory/OpenRLHF/verl araç zincirini production'da işletebilecek ve hizalama süreçlerini EU AI Act + KVKK compliance disipliniyle yönetebilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 90'ın üzerinde uygulamalı ders içerir.

Eğitim Metodolojisi

Türkiye'de RLHF, DPO ve GRPO algoritmalarını matematik + kod + production üçlüsüyle uçtan uca işleyen tek kapsamlı ileri seviye program

Bradley-Terry preference loss'tan DPO implicit reward türevine, PPO clipping objective'inden GRPO group-relative advantage hesabına kadar tam matematiksel inşa

KTO, IPO, SimPO, ORPO, cDPO modern preference optimization ailesinin karşılaştırmalı kanıt-tabanlı analizi

DeepSeek R1, R1-Zero, Qwen3 Reasoning ve Tülu 3 reasoning-model hizalama pipeline'larının iç yapısı

Constitutional AI ve RLAIF ile insan etiketi olmadan hizalama; Türkçe + KVKK uyumlu principle set tasarımı

TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl beş framework'lik production toolchain karşılaştırma matrisi

RewardBench, AlpacaEval 2.0 LC, MT-Bench, Arena Hard ile uçtan uca değerlendirme disiplini ve reward hacking mitigation

EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK uyumluluk audit framework'ü ile compliance entegrasyonu

Kimler İçindir?

Kurumsal LLM ürünlerini insan tercihiyle ve güvenlik kısıtlarıyla hizalamak isteyen ML Engineer'lar

DeepSeek R1, OpenAI o3/o4 paradigmasında reasoning model eğitmek isteyen AI Researcher'lar

Production'a giden agent / chat / RAG ürünlerinde sycophancy, jailbreak ve hallucination'ı azaltmak isteyen senior backend developer'lar

Kendi açık kaynak LLM'sini (Türkçe veya domain-specific) hizalamak isteyen startup teknik liderleri

RLHF disiplinini akademik düzeyden production seviyesine taşımak isteyen ML Platform ve MLOps mühendisleri

KVKK + EU AI Act uyumlu LLM hizalama pipeline'ı kurması gereken kurumsal AI / governance liderleri

Neden Bu Eğitim?

Türkiye'de RLHF, DPO ve GRPO'yu matematik + kod + production üçlüsüyle uçtan uca işleyen tek ileri seviye programdır.

DeepSeek R1 GRPO ve reasoning model paradigmasını 2026 itibarıyla güncel haliyle öğretir.

DPO, KTO, IPO, SimPO, ORPO, cDPO ailesinin kanıt-tabanlı karşılaştırmalı analizini sunar.

Constitutional AI ve RLAIF ile Anthropic Claude tarzı insan-etiket-bağımsız hizalama disiplini kazandırır.

TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl beş framework'ün scale'e göre doğru seçim matrisini verir.

RewardBench, AlpacaEval 2.0 LC, MT-Bench, Arena Hard ile production değerlendirme disiplini öğretir.

Reward hacking, length collapse, KL drift gibi production failure mode'larını tespit ve mitigation'a bağlar.

EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK ile compliance audit framework'ü kurar.

Kazanımlar

Bradley-Terry preference modelinden başlayarak production-grade reward model eğitebilirsiniz.

PPO clipping objective'i ve KL penalty tuning'i ustaca yönetebilirsiniz.

DPO matematiksel türevini kavrayarak β temperature'ı kanıt-tabanlı seçebilirsiniz.

KTO, IPO, SimPO, ORPO, cDPO varyantları arasında doğru tercihi yapabilirsiniz.

GRPO ile R1-scale reasoning model hizalama pipeline'ı kurabilirsiniz.

Constitutional AI ve RLAIF ile AI-labeled preference dataset üretebilirsiniz.

TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl arasında scale'e göre doğru tool seçebilirsiniz.

RewardBench, AlpacaEval 2.0 LC, MT-Bench ile hizalama kalitesini doğrulayabilirsiniz.

Reward hacking, length collapse, sycophancy ve KL drift'i tespit edip önleyebilirsiniz.

EU AI Act + KVKK uyumluluk audit raporu üreterek hizalama süreçlerini compliance disiplinine bağlayabilirsiniz.

Gereksinimler

Aktif Python deneyimi (orta-üst seviye), PyTorch ve HuggingFace Transformers temel kullanımı

LLM fine-tuning ile temel deneyim (SFT, LoRA / QLoRA en azından kavramsal aşinalık)

Linear algebra, olasılık ve gradient descent gibi ML temel matematiği

Reinforcement Learning kavramlarına temel aşinalık (advantage, policy, reward — derinleştirme eğitimde yapılır)

Eğitim öncesinde GPU erişimi (RunPod, Lambda Labs, Modal veya kendi setup) — H100/A100 önerilir

Eğitim öncesinde HuggingFace + Weights & Biases hesabı

Eğitim Müfredatı

104 Ders

Modül 1: LLM Hizalama Mühendisliğine Stratejik Giriş ve 2026 Manzarası9 Ders

Modül 2: Supervised Fine-Tuning (SFT) Temelleri — Instruction Tuning Mühendisliği9 Ders

Modül 3: Reward Model (RM) Mühendisliği — Bradley-Terry, Pairwise ve Generative Reward9 Ders

Modül 4: PPO Tabanlı Klasik RLHF — InstructGPT Boru Hattı Sıfırdan9 Ders

Modül 5: Direct Preference Optimization (DPO) — RL Olmadan Hizalama9 Ders

Modül 6: Modern Preference Optimization Ailesi — IPO, KTO, SimPO, ORPO, cDPO9 Ders

Modül 7: GRPO (Group Relative Policy Optimization) — DeepSeek R1 Paradigması9 Ders

Modül 8: Constitutional AI ve RLAIF — İnsan Etiketi Olmadan Hizalama9 Ders

Modül 9: Reasoning Model Hizalaması — PRM, Test-Time Compute ve CoT RL9 Ders

Modül 10: Production RLHF / DPO / GRPO Araç Zinciri — TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl9 Ders

Modül 11: Değerlendirme, Reward Hacking ve Güvenlik — RewardBench, AlpacaEval 2.0, Arena Hard9 Ders

Modül 12: Capstone — Uçtan Uca Türkçe LLM Hizalama Pipeline'ı5 Ders

Eğitmen

Şükrü Yusuf KAYA

Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı

Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.

Sıkça Sorulan Sorular

Eğitime Başvur

Sınırlı kontenjan ile butik eğitim.

Gelecek Gruplara Kayıt

Sıradaki grup açıldığında öncelikli bilgi almak için kaydınızı bırakın.

Canlı & İnteraktif Oturumlar

Proje Bazlı Öğrenme

Sektör Odaklı Müfredat

Profesyonel Networking

Birebir Danışmanlık

Eğitmen ile özel görüşme planlayın.

Kaydol

Kategoriler

AI Mühendisliği AI Güvenliği & Yönetişim

Bu eğitim hakkında

Anahtar Çıkarımlar

RLHF, DPO ve GRPO ile LLM Hizalama Mühendisliği Eğitimi