Bu eğitim hakkında
RLHF (PPO), DPO, KTO, IPO, SimPO, ORPO ve DeepSeek R1 GRPO algoritmalarını matematik + kod düzeyinde işleyen; reward model, Constitutional AI, RLAIF, reasoning model hizalaması ve TRL/Axolotl/LLaMA-Factory/OpenRLHF/verl araç zincirini production-grade biçimde öğreten 3 günlük ileri seviye Türkçe LLM hizalama eğitimi.
Bu eğitim şu kitleler için tasarlanmıştır: Kurumsal LLM ürünlerini insan tercihiyle ve güvenlik kısıtlarıyla hizalamak isteyen ML Engineer'lar DeepSeek R1, OpenAI o3/o4 paradigmasında reasoning model eğitmek isteyen AI Researcher'lar Production'a giden agent / chat / RAG ürünlerinde sycophancy, jailbreak ve hallucination'ı azaltmak isteyen senior backend developer'lar Kendi açık kaynak LLM'sini (Türkçe veya domain-specific) hizalamak isteyen startup teknik liderleri RLHF disiplinini akademik düzeyden production seviyesine taşımak isteyen ML Platform ve MLOps mühendisleri KVKK + EU AI Act uyumlu LLM hizalama pipeline'ı kurması gereken kurumsal AI / governance liderleri
Bu eğitim neden önemli: Türkiye'de RLHF, DPO ve GRPO'yu matematik + kod + production üçlüsüyle uçtan uca işleyen tek ileri seviye programdır. DeepSeek R1 GRPO ve reasoning model paradigmasını 2026 itibarıyla güncel haliyle öğretir. DPO, KTO, IPO, SimPO, ORPO, cDPO ailesinin kanıt-tabanlı karşılaştırmalı analizini sunar. Constitutional AI ve RLAIF ile Anthropic Claude tarzı insan-etiket-bağımsız hizalama disiplini kazandırır. TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl beş framework'ün scale'e göre doğru seçim matrisini verir. RewardBench, AlpacaEval 2.0 LC, MT-Bench, Arena Hard ile production değerlendirme disiplini öğretir. Reward hacking, length collapse, KL drift gibi production failure mode'larını tespit ve mitigation'a bağlar. EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK ile compliance audit framework'ü kurar.
Eğitim sonunda kazanacağınız çıktılar: Bradley-Terry preference modelinden başlayarak production-grade reward model eğitebilirsiniz. PPO clipping objective'i ve KL penalty tuning'i ustaca yönetebilirsiniz. DPO matematiksel türevini kavrayarak β temperature'ı kanıt-tabanlı seçebilirsiniz. KTO, IPO, SimPO, ORPO, cDPO varyantları arasında doğru tercihi yapabilirsiniz. GRPO ile R1-scale reasoning model hizalama pipeline'ı kurabilirsiniz. Constitutional AI ve RLAIF ile AI-labeled preference dataset üretebilirsiniz. TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl arasında scale'e göre doğru tool seçebilirsiniz. RewardBench, AlpacaEval 2.0 LC, MT-Bench ile hizalama kalitesini doğrulayabilirsiniz. Reward hacking, length collapse, sycophancy ve KL drift'i tespit edip önleyebilirsiniz. EU AI Act + KVKK uyumluluk audit raporu üreterek hizalama süreçlerini compliance disiplinine bağlayabilirsiniz.
Ön koşullar ve önerilen birikim: Aktif Python deneyimi (orta-üst seviye), PyTorch ve HuggingFace Transformers temel kullanımı LLM fine-tuning ile temel deneyim (SFT, LoRA / QLoRA en azından kavramsal aşinalık) Linear algebra, olasılık ve gradient descent gibi ML temel matematiği Reinforcement Learning kavramlarına temel aşinalık (advantage, policy, reward — derinleştirme eğitimde yapılır) Eğitim öncesinde GPU erişimi (RunPod, Lambda Labs, Modal veya kendi setup) — H100/A100 önerilir Eğitim öncesinde HuggingFace + Weights & Biases hesabı
- Türkiye'de RLHF, DPO ve GRPO algoritmalarını matematik + kod + production üçlüsüyle uçtan uca işleyen tek kapsamlı ileri seviye program
- Bradley-Terry preference loss'tan DPO implicit reward türevine, PPO clipping objective'inden GRPO group-relative advantage hesabına kadar tam matematiksel inşa
- KTO, IPO, SimPO, ORPO, cDPO modern preference optimization ailesinin karşılaştırmalı kanıt-tabanlı analizi
- DeepSeek R1, R1-Zero, Qwen3 Reasoning ve Tülu 3 reasoning-model hizalama pipeline'larının iç yapısı
- Constitutional AI ve RLAIF ile insan etiketi olmadan hizalama; Türkçe + KVKK uyumlu principle set tasarımı
- TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl beş framework'lik production toolchain karşılaştırma matrisi
- RewardBench, AlpacaEval 2.0 LC, MT-Bench, Arena Hard ile uçtan uca değerlendirme disiplini ve reward hacking mitigation
- EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK uyumluluk audit framework'ü ile compliance entegrasyonu
Anahtar Çıkarımlar
- Bradley-Terry preference modelinden başlayarak production-grade reward model eğitebilirsiniz.
- PPO clipping objective'i ve KL penalty tuning'i ustaca yönetebilirsiniz.
- DPO matematiksel türevini kavrayarak β temperature'ı kanıt-tabanlı seçebilirsiniz.
- KTO, IPO, SimPO, ORPO, cDPO varyantları arasında doğru tercihi yapabilirsiniz.
- GRPO ile R1-scale reasoning model hizalama pipeline'ı kurabilirsiniz.
- Constitutional AI ve RLAIF ile AI-labeled preference dataset üretebilirsiniz.
- TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl arasında scale'e göre doğru tool seçebilirsiniz.
- RewardBench, AlpacaEval 2.0 LC, MT-Bench ile hizalama kalitesini doğrulayabilirsiniz.
- Reward hacking, length collapse, sycophancy ve KL drift'i tespit edip önleyebilirsiniz.
- EU AI Act + KVKK uyumluluk audit raporu üreterek hizalama süreçlerini compliance disiplinine bağlayabilirsiniz.
RLHF, DPO ve GRPO ile LLM Hizalama Mühendisliği Eğitimi
RLHF (PPO), DPO, KTO, IPO, SimPO, ORPO ve DeepSeek R1 GRPO algoritmalarını matematik + kod düzeyinde işleyen; reward model, Constitutional AI, RLAIF, reasoning model hizalaması ve TRL/Axolotl/LLaMA-Factory/OpenRLHF/verl araç zincirini production-grade biçimde öğreten 3 günlük ileri seviye Türkçe LLM hizalama eğitimi.
Eğitim Hakkında
Bu eğitim, büyük dil modellerini (LLM) insan tercihleriyle ve güvenlik kısıtlarıyla hizalayan modern algoritmaların matematik temelini, pratik implementasyonunu ve production'a alımını uçtan uca öğretmek üzere tasarlanmıştır. 2022'de OpenAI InstructGPT ve Anthropic Constitutional AI ile başlayan; 2023'te DPO ile büyük bir paradigma değişikliği yaşayan; 2024'te IPO, KTO, SimPO, ORPO varyantlarıyla zenginleşen ve 2025'te DeepSeek R1'in GRPO algoritmasıyla reasoning model çağını açan LLM hizalama disiplini, modern AI mühendisliğinin merkezi konularından biridir. Türkiye'de bu disiplini matematik + kod + production üçlüsüyle birleştiren kapsamlı bir eğitim neredeyse yoktur; mevcut içerikler ya akademik düzlemde teorik kalıyor ya da örnek-kopyala düzeyinde yüzeysel kalıyor. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade LLM hizalama referans eğitimi olarak doldurmak üzere tasarlandı.
Eğitimin teorik omurgasını üç matematiksel pillar oluşturur: birincisi, klasik RLHF'in temeli olan Bradley-Terry preference modeli ve onun üzerine inşa edilen reward model (RM) eğitimi — sigmoid pairwise loss, K-wise Plackett-Luce genellemesi, classification head vs generative reward model (Nemotron-4 Reward, Skywork-Critic), Tülu 3 PRM (process reward) implementasyonu detaylı işlenir. İkincisi, PPO algoritmasının LLM'lere uyarlanması: policy gradient → importance sampling → clipped surrogate objective türevi, GAE (Generalized Advantage Estimation), KL penalty ile reference model'e uzaklık kontrolü, fixed β vs adaptive KL controller, vLLM ile yüksek throughput response sampling, reference model log-prob hesabının bellek-verimli yönetimi. Üçüncüsü, DPO'nun kapalı-form türevi: RLHF reward maximization probleminin r(x,y) = β log π_θ(y|x)/π_ref(y|x) implicit reward parametrizasyonu ile RL loop'unu tamamen ortadan kaldıran formülasyonu — bu türev eğitimde adım adım yapılır, β temperature'ın KL constraint dualitesi netleştirilir, β değerinin seçim cookbook'u verilir.
DPO sonrası 2024-2026 döneminde yayınlanan modern preference optimization ailesi karşılaştırmalı işlenir: IPO (Azar 2024) — overfitting'e karşı identity preference loss; cDPO (Conservative DPO) — noisy preference label'a dayanıklı varyant; KTO (Kahneman-Tversky Optimization) — prospect theory tabanlı, pairwise olmadan binary feedback (thumbs up/down) ile çalışma; SimPO — reference model gerektirmeyen length-normalized loss; ORPO — SFT ve preference optimization'ı tek aşamada birleştiren Llama 3.1 yaklaşımı; DPO-SDP — self-discovery preference. Her algoritmanın matematik formülasyonu adım adım türetilir, hangi veri türüyle (pairwise, binary, scalar) çalıştığı açıklanır, ve TRL DPOTrainer + Axolotl + OpenRLHF ile pratik implementation yapılır. Bu disiplinli karşılaştırma, ekibinizin kendi senaryosu için doğru tekniği kanıt-tabanlı seçmesini sağlar.
Programın en güncel bölümü, DeepSeek R1'in 2025'te tanıttığı GRPO (Group Relative Policy Optimization) algoritmasına ayrılmıştır. GRPO, PPO'da gerekli olan value (critic) modelini tamamen ortadan kaldırır ve advantage hesabını grup-içi normalization ile yapar: A_i = (r_i - mean(r)) / std(r). Bu yaklaşım hem bellek hem compute açısından PPO'ya göre yarı maliyet sağlar ve kararlılığı artırır. Eğitimde GRPO matematik düzeyinde türetilir, R1-Zero (cold-start SFT olmadan pure RL ile reasoning emergence) ve R1 (SFT cold-start → reasoning RL → general RL) pipeline'ları ayrı ayrı çözümlenir, rule-based reward (math accuracy, code execution, format compliance) tasarımı detaylanır. Production implementasyon için ByteDance verl framework (en yüksek scale GRPO), OpenRLHF (Ray + DeepSpeed multi-node) ve TRL GRPOTrainer (single-node prototype) karşılaştırmalı işlenir; vLLM rollout + FSDP training hibrit engine mimarisi pratik örneklerle gösterilir.
Anthropic'in 2022'den beri öncülük ettiği Constitutional AI ve onun genelleşmiş hali olan RLAIF (Reinforcement Learning from AI Feedback) ayrı bir modülde ele alınır. SL-CAI (critique → revision → revised response training data) ve RL-CAI (AI-labeled preference data ile reward model + PPO/DPO) aşamaları detaylı işlenir; Anthropic'in Claude 4.x ailesinde kullandığı principle set yapısı incelenir; Claude Opus 4.7, GPT-5 veya Gemini 2.5 Pro'yu strong-model-as-judge olarak kullanarak hibrit RLAIF pipeline kurma yöntemi gösterilir. Türkçe + KVKK + Türk hukukuna uyumlu principle set tasarımı pratik olarak yapılır; bu, Türkiye'de açılış pazarı olarak büyük değer üretir çünkü mevcut AI asistanların principle set'leri ağırlıklı İngilizce ve Batı hukuk sistemine kalibrelidir.
2025-2026 reasoning model çağının hizalama disiplini ayrı bir modülde ele alınır. OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think ve Claude Extended Thinking gibi reasoning model'ler outcome reward (rule-based, exact match) yerine — veya yanında — process reward model (PRM) kullanır: çözümün sadece doğru sonucu değil, her ara adımının kalitesi puanlanır. AllenAI Tülu 3 (2025) PRM yaklaşımı, OpenThoughts dataset'i, OLMo 2 reasoning pipeline'ı ve Qwen3'ün mixed-mode (thinking on/off) yaklaşımı detaylı işlenir. Snell scaling laws ile test-time compute'un pre-train compute'a göre marjinal kazanımı analiz edilir; reasoning distillation ile R1 → 7B/14B/32B kompakt modellere bilgi aktarımı pratik olarak yapılır.
Production preference optimization pipeline'larını kuran beş ana açık kaynak framework karşılaştırmalı ele alınır: HuggingFace TRL (referans implementasyon, SFTTrainer + RewardTrainer + DPOTrainer + PPOTrainer + GRPOTrainer); Axolotl (config-driven YAML pipeline); LLaMA-Factory (UI + multi-model preference optimization); OpenRLHF (Ray + DeepSpeed multi-node distributed RL); ByteDance verl (en yüksek scale GRPO için hybrid engine mimarisi). Her framework için dataset format, custom reward integration, scaling karakteristikleri ve compute requirements detaylı tabloyla işlenir; framework seçim matrisi katılımcıya somut karar yolu sunar — 8B model + tek GPU için TRL, 8B-70B + 8 GPU + production CI için Axolotl veya OpenRLHF, multi-node 70B+ R1-scale GRPO için verl.
Hizalama pipeline'ının doğrulama disiplini ayrı bir modülde ele alınır. Reward model değerlendirmesi RewardBench (Chat, Chat-Hard, Safety, Reasoning), JudgeBench ve RM-Bench ile yapılır; policy değerlendirmesi AlpacaEval 2.0 LC (length-controlled win rate), MT-Bench, Arena Hard (Claude Opus 4.7 veya GPT-5 judge ile) ve Chatbot Arena ELO ile gerçekleştirilir. Reward hacking tespiti için length collapse, sycophancy, EOS spam, format hacking, KL drift gibi tipik failure mode'lar pratik örneklerle gösterilir ve mitigation stratejileri (length-control reward, KL penalty tuning, early stopping kriterleri) sunulur. EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK uyumluluk audit checklist'i ile hizalama süreci kurumsal compliance disiplinine bağlanır.
Capstone modülünde her katılımcı, kendi use case'ine özel uçtan uca bir Türkçe LLM hizalama pipeline'ı tasarlar: base model seçimi (Llama 3.3, Qwen3, Gemma 3, Mistral); Türkçe SFT mix (Cosmos, Turkish UltraChat, kendi verisi); reward model eğitimi (Türkçe UltraFeedback preference dataset üzerinde); DPO/KTO/SimPO/GRPO arasında kanıt-tabanlı tercih; pipeline implementation (TRL veya Axolotl veya OpenRLHF); RewardBench + AlpacaEval 2.0 LC + Türkçe MT-Bench ile değerlendirme; vLLM ile production deployment; 90 günlük operasyonel roadmap (cost, KL drift monitoring, online RLAIF feedback loop). Eğitim sonunda katılımcılar; reward model'i Bradley-Terry preference loss'tan production seviyesinde inşa edebilecek; PPO'nun clipping objective'ini ve KL penalty tuning'ini ustaca yönetebilecek; DPO/KTO/SimPO/ORPO/IPO/cDPO arasında doğru tercihi kanıt-tabanlı yapabilecek; GRPO ile R1-scale reasoning model hizalayabilecek; Constitutional AI ve RLAIF pipeline'ları kurabilecek; TRL/Axolotl/LLaMA-Factory/OpenRLHF/verl araç zincirini production'da işletebilecek ve hizalama süreçlerini EU AI Act + KVKK compliance disipliniyle yönetebilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 90'ın üzerinde uygulamalı ders içerir.
Eğitim Metodolojisi
Türkiye'de RLHF, DPO ve GRPO algoritmalarını matematik + kod + production üçlüsüyle uçtan uca işleyen tek kapsamlı ileri seviye program
Bradley-Terry preference loss'tan DPO implicit reward türevine, PPO clipping objective'inden GRPO group-relative advantage hesabına kadar tam matematiksel inşa
KTO, IPO, SimPO, ORPO, cDPO modern preference optimization ailesinin karşılaştırmalı kanıt-tabanlı analizi
DeepSeek R1, R1-Zero, Qwen3 Reasoning ve Tülu 3 reasoning-model hizalama pipeline'larının iç yapısı
Constitutional AI ve RLAIF ile insan etiketi olmadan hizalama; Türkçe + KVKK uyumlu principle set tasarımı
TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl beş framework'lik production toolchain karşılaştırma matrisi
RewardBench, AlpacaEval 2.0 LC, MT-Bench, Arena Hard ile uçtan uca değerlendirme disiplini ve reward hacking mitigation
EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK uyumluluk audit framework'ü ile compliance entegrasyonu
Kimler İçindir?
Neden Bu Eğitim?
Türkiye'de RLHF, DPO ve GRPO'yu matematik + kod + production üçlüsüyle uçtan uca işleyen tek ileri seviye programdır.
DeepSeek R1 GRPO ve reasoning model paradigmasını 2026 itibarıyla güncel haliyle öğretir.
DPO, KTO, IPO, SimPO, ORPO, cDPO ailesinin kanıt-tabanlı karşılaştırmalı analizini sunar.
Constitutional AI ve RLAIF ile Anthropic Claude tarzı insan-etiket-bağımsız hizalama disiplini kazandırır.
TRL, Axolotl, LLaMA-Factory, OpenRLHF, verl beş framework'ün scale'e göre doğru seçim matrisini verir.
RewardBench, AlpacaEval 2.0 LC, MT-Bench, Arena Hard ile production değerlendirme disiplini öğretir.
Reward hacking, length collapse, KL drift gibi production failure mode'larını tespit ve mitigation'a bağlar.
EU AI Act, NIST AI RMF, ISO/IEC 42001 ve KVKK ile compliance audit framework'ü kurar.
Kazanımlar
Gereksinimler
Eğitim Müfredatı
104 DersEğitmen

Şükrü Yusuf KAYA
Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı
Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.
Sıkça Sorulan Sorular
Eğitime Başvur
Sınırlı kontenjan ile butik eğitim.
Gelecek Gruplara Kayıt
Sıradaki grup açıldığında öncelikli bilgi almak için kaydınızı bırakın.
Birebir Danışmanlık
Eğitmen ile özel görüşme planlayın.
Kategoriler
İlgili eğitimler
Claude Code ile Profesyonel Yazılım Geliştirme Eğitimi
Anthropic'in agentic kodlama platformu Claude Code'u kurumsal seviyede ustalaşmak isteyen yazılım profesyonelleri için kapsamlı, ileri seviye 4 günlük eğitim programı. MCP entegrasyonları, Hooks, Sub-agents, Skills ve Claude Agent SDK ile production-grade agent mimarisi.
4 GünadvancedClaude Agent SDK ile AI Ajan Geliştirme Eğitimi
Anthropic'in Claude Agent SDK'sı ile production-grade AI ajanları geliştirmek isteyen yazılım mühendisleri için kapsamlı, ileri seviye 4 günlük program. Tool use orkestrasyonu, MCP server geliştirme, multi-agent desenleri, prompt caching ve evaluation engineering.
4 GünadvancedYapay Zekaya Giriş ve Kurumsal Prompt Engineering Eğitimi
Kurumlar için tasarlanmış bu eğitim; yapay zekâ temelleri, büyük dil modelleri, prompt engineering, güvenli kullanım ve gerçek iş senaryoları üzerinden AI’dan daha kaliteli ve daha kontrollü çıktı almayı öğretir.
2 Gün