# RLHF, DPO ve GRPO ile LLM Hizalama Mühendisliği Eğitimi

> Source: https://sukruyusufkaya.com/training/rlhf-dpo-grpo-llm-hizalama-muhendisligi-egitimi
> Updated: 2026-07-02T19:17:46.527Z
> Level: advanced
> Topics: rlhf, dpo, grpo, kto, ipo, simpo, orpo, ppo, constitutional ai, rlaif, reward model, preference optimization, llm alignment, reasoning model, deepseek r1, trl, axolotl, openrlhf, verl, rewardbench
**TLDR:** RLHF (PPO), DPO, KTO, IPO, SimPO, ORPO ve DeepSeek R1 GRPO algoritmalarını matematik + kod düzeyinde işleyen; reward model, Constitutional AI, RLAIF, reasoning model hizalaması ve TRL/Axolotl/LLaMA-Factory/OpenRLHF/verl araç zincirini production-grade biçimde öğreten 3 günlük ileri seviye Türkçe LLM hizalama eğitimi.

## Açıklama

RLHF, DPO ve GRPO ile LLM Hizalama Mühendisliği Eğitimi, büyük dil modellerini insan tercihleriyle hizalayan modern algoritmaları (RLHF, DPO, KTO, IPO, SimPO, ORPO, GRPO, Constitutional AI, RLAIF) matematik düzeyinde türeten ve TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl gibi production-grade araçlarla uçtan uca pipeline kurmayı öğreten 3 günlük ileri seviye bir programdır. ML engineer, AI researcher, senior backend developer ve ML platform mühendisleri için tasarlanmıştır.

## Kazanımlar

- Bradley-Terry preference modelinden başlayarak production-grade reward model eğitebilirsiniz.
- PPO clipping objective'i ve KL penalty tuning'i ustaca yönetebilirsiniz.
- DPO matematiksel türevini kavrayarak β temperature'ı kanıt-tabanlı seçebilirsiniz.
- KTO, IPO, SimPO, ORPO, cDPO varyantları arasında doğru tercihi yapabilirsiniz.
- GRPO ile R1-scale reasoning model hizalama pipeline'ı kurabilirsiniz.
- Constitutional AI ve RLAIF ile AI-labeled preference dataset üretebilirsiniz.
- TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl arasında scale'e göre doğru tool seçebilirsiniz.
- RewardBench, AlpacaEval 2.0 LC, MT-Bench ile hizalama kalitesini doğrulayabilirsiniz.
- Reward hacking, length collapse, sycophancy ve KL drift'i tespit edip önleyebilirsiniz.
- EU AI Act + KVKK uyumluluk audit raporu üreterek hizalama süreçlerini compliance disiplinine bağlayabilirsiniz.

<p>Bu eğitim, büyük dil modellerini (LLM) insan tercihleriyle ve güvenlik kısıtlarıyla hizalayan modern algoritmaların matematik temelini, pratik implementasyonunu ve production'a alımını uçtan uca öğretmek üzere tasarlanmıştır. 2022'de OpenAI InstructGPT ve Anthropic Constitutional AI ile başlayan; 2023'te DPO ile büyük bir paradigma değişikliği yaşayan; 2024'te IPO, KTO, SimPO, ORPO varyantlarıyla zenginleşen ve 2025'te DeepSeek R1'in GRPO algoritmasıyla reasoning model çağını açan LLM hizalama disiplini, modern AI mühendisliğinin merkezi konularından biridir. Türkiye'de bu disiplini matematik + kod + production üçlüsüyle birleştiren kapsamlı bir eğitim neredeyse yoktur; mevcut içerikler ya akademik düzlemde teorik kalıyor ya da örnek-kopyala düzeyinde yüzeysel kalıyor. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade LLM hizalama referans eğitimi olarak doldurmak üzere tasarlandı.</p>

<p>Eğitimin teorik omurgasını üç matematiksel pillar oluşturur: birincisi, klasik RLHF'in temeli olan Bradley-Terry preference modeli ve onun üzerine inşa edilen reward model (RM) eğitimi — sigmoid pairwise loss, K-wise Plackett-Luce genellemesi, classification head vs generative reward model (Nemotron-4 Reward, Skywork-Critic), Tülu 3 PRM (process reward) implementasyonu detaylı işlenir. İkincisi, PPO algoritmasının LLM'lere uyarlanması: policy gradient → importance sampling → clipped surrogate objective türevi, GAE (Generalized Advantage Estimation), KL penalty ile reference model'e uzaklık kontrolü, fixed β vs adaptive KL controller, vLLM ile yüksek throughput response sampling, reference model log-prob hesabının bellek-verimli yönetimi. Üçüncüsü, DPO'nun kapalı-form türevi: RLHF reward maximization probleminin r(x,y) = β log π_θ(y|x)/π_ref(y|x) implicit reward parametrizasyonu ile RL loop'unu tamamen ortadan kaldıran formülasyonu — bu türev eğitimde adım adım yapılır, β temperature'ın KL constraint dualitesi netleştirilir, β değerinin seçim cookbook'u verilir.</p>

<p>DPO sonrası 2024-2026 döneminde yayınlanan modern preference optimization ailesi karşılaştırmalı işlenir: IPO (Azar 2024) — overfitting'e karşı identity preference loss; cDPO (Conservative DPO) — noisy preference label'a dayanıklı varyant; KTO (Kahneman-Tversky Optimization) — prospect theory tabanlı, pairwise olmadan binary feedback (thumbs up/down) ile çalışma; SimPO — reference model gerektirmeyen length-normalized loss; ORPO — SFT ve preference optimization'ı tek aşamada birleştiren Llama 3.1 yaklaşımı; DPO-SDP — self-discovery preference. Her algoritmanın matematik formülasyonu adım adım türetilir, hangi veri türüyle (pairwise, binary, scalar) çalıştığı açıklanır, ve TRL DPOTrainer + Axolotl + OpenRLHF ile pratik implementation yapılır. Bu disiplinli karşılaştırma, ekibinizin kendi senaryosu için doğru tekniği kanıt-tabanlı seçmesini sağlar.</p>

<p>Programın en güncel bölümü, DeepSeek R1'in 2025'te tanıttığı GRPO (Group Relative Policy Optimization) algoritmasına ayrılmıştır. GRPO, PPO'da gerekli olan value (critic) modelini tamamen ortadan kaldırır ve advantage hesabını grup-içi normalization ile yapar: A_i = (r_i - mean(r)) / std(r). Bu yaklaşım hem bellek hem compute açısından PPO'ya göre yarı maliyet sağlar ve kararlılığı artırır. Eğitimde GRPO matematik düzeyinde türetilir, R1-Zero (cold-start SFT olmadan pure RL ile reasoning emergence) ve R1 (SFT cold-start → reasoning RL → general RL) pipeline'ları ayrı ayrı çözümlenir, rule-based reward (math accuracy, code execution, format compliance) tasarımı detaylanır. Production implementasyon için ByteDance verl framework (en yüksek scale GRPO), OpenRLHF (Ray + DeepSpeed multi-node) ve TRL GRPOTrainer (single-node prototype) karşılaştırmalı işlenir; vLLM rollout + FSDP training hibrit engine mimarisi pratik örneklerle gösterilir.</p>

<p>Anthropic'in 2022'den beri öncülük ettiği Constitutional AI ve onun genelleşmiş hali olan RLAIF (Reinforcement Learning from AI Feedback) ayrı bir modülde ele alınır. SL-CAI (critique → revision → revised response training data) ve RL-CAI (AI-labeled preference data ile reward model + PPO/DPO) aşamaları detaylı işlenir; Anthropic'in Claude 4.x ailesinde kullandığı principle set yapısı incelenir; Claude Opus 4.7, GPT-5 veya Gemini 2.5 Pro'yu strong-model-as-judge olarak kullanarak hibrit RLAIF pipeline kurma yöntemi gösterilir. Türkçe + KVKK + Türk hukukuna uyumlu principle set tasarımı pratik olarak yapılır; bu, Türkiye'de açılış pazarı olarak büyük değer üretir çünkü mevcut AI asistanların principle set'leri ağırlıklı İngilizce ve Batı hukuk sistemine kalibrelidir.</p>

<p>2025-2026 reasoning model çağının hizalama disiplini ayrı bir modülde ele alınır. OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think ve Claude Extended Thinking gibi reasoning model'ler outcome reward (rule-based, exact match) yerine — veya yanında — process reward model (PRM) kullanır: çözümün sadece doğru sonucu değil, her ara adımının kalitesi puanlanır. AllenAI Tülu 3 (2025) PRM yaklaşımı, OpenThoughts dataset'i, OLMo 2 reasoning pipeline'ı ve Qwen3'ün mixed-mode (thinking on/off) yaklaşımı detaylı işlenir. Snell scaling laws ile test-time compute'un pre-train compute'a göre marjinal kazanımı analiz edilir; reasoning distillation ile R1 → 7B/14B/32B kompakt modellere bilgi aktarımı pratik olarak yapılır.</p>

<p>Production preference optimization pipeline'larını kuran beş ana açık kaynak framework karşılaştırmalı ele alınır: HuggingFace TRL (referans implementasyon, SFTTrainer + RewardTrainer + DPOTrainer + PPOTrainer + GRPOTrainer); Axolotl (config-driven YAML pipeline); LLaMA-Factory (UI + multi-model preference optimization); OpenRLHF (Ray + DeepSpeed multi-node distributed RL); ByteDance verl (en yüksek scale GRPO için hybrid engine mimarisi). Her framework için dataset format, custom reward integration, scaling karakteristikleri ve compute requirements detaylı tabloyla işlenir; framework seçim matrisi katılımcıya somut karar yolu sunar — 8B model + tek GPU için TRL, 8B-70B + 8 GPU + production CI için Axolotl veya OpenRLHF, multi-node 70B+ R1-scale GRPO için verl.</p>

<p>Hizalama pipeline'ının doğrulama disiplini ayrı bir modülde ele alınır. Reward model değerlendirmesi RewardBench (Chat, Chat-Hard, Safety, Reasoning), JudgeBench ve RM-Bench ile yapılır; policy değerlendirmesi AlpacaEval 2.0 LC (length-controlled win rate), MT-Bench, Arena Hard (Claude Opus 4.7 veya GPT-5 judge ile) ve Chatbot Arena ELO ile gerçekleştirilir. Reward hacking tespiti için length collapse, sycophancy, EOS spam, format hacking, KL drift gibi tipik failure mode'lar pratik örneklerle gösterilir ve mitigation stratejileri (length-control reward, KL penalty tuning, early stopping kriterleri) sunulur. EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK uyumluluk audit checklist'i ile hizalama süreci kurumsal compliance disiplinine bağlanır.</p>

<p>Capstone modülünde her katılımcı, kendi use case'ine özel uçtan uca bir Türkçe LLM hizalama pipeline'ı tasarlar: base model seçimi (Llama 3.3, Qwen3, Gemma 3, Mistral); Türkçe SFT mix (Cosmos, Turkish UltraChat, kendi verisi); reward model eğitimi (Türkçe UltraFeedback preference dataset üzerinde); DPO/KTO/SimPO/GRPO arasında kanıt-tabanlı tercih; pipeline implementation (TRL veya Axolotl veya OpenRLHF); RewardBench + AlpacaEval 2.0 LC + Türkçe MT-Bench ile değerlendirme; vLLM ile production deployment; 90 günlük operasyonel roadmap (cost, KL drift monitoring, online RLAIF feedback loop). Eğitim sonunda katılımcılar; reward model'i Bradley-Terry preference loss'tan production seviyesinde inşa edebilecek; PPO'nun clipping objective'ini ve KL penalty tuning'ini ustaca yönetebilecek; DPO/KTO/SimPO/ORPO/IPO/cDPO arasında doğru tercihi kanıt-tabanlı yapabilecek; GRPO ile R1-scale reasoning model hizalayabilecek; Constitutional AI ve RLAIF pipeline'ları kurabilecek; TRL/Axolotl/LLaMA-Factory/OpenRLHF/verl araç zincirini production'da işletebilecek ve hizalama süreçlerini EU AI Act + KVKK compliance disipliniyle yönetebilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 90'ın üzerinde uygulamalı ders içerir.</p>