Bu eğitimle RLHF/DPO/GRPO eğitimi arasındaki fark nedir?

İkisi tamamlayıcıdır. RLHF/DPO/GRPO eğitimi LLM'leri hizalama algoritmaları üzerine odaklanır (Bradley-Terry reward model, PPO clipping, DPO derivation, GRPO group-relative advantage, KTO/IPO/SimPO/ORPO ailesi); ALIGNMENT'a odaklı. Bu eğitim ise reasoning model'leri KULLANMAYA, DAĞITMAYA ve BENCHMARK ETMEYE odaklanır: o3/o4/R1 anatomisi, test-time compute scaling, reasoning distillation reçeteleri, MCTS/ToT/Reflexion pattern'ları, vLLM/SGLang ile production inference, AIME/SWE-bench değerlendirme. Beraber alındığında reasoning model'i hem eğitebilir hem production'a alabilirsiniz; ayrı ayrı alındığında her biri kendi başına tam ders programı.

OpenAI o3, DeepSeek R1, Gemini Deep Think ve Claude Extended Thinking arasında en güçlüsü hangisi?

Tek bir cevap yok — görev türüne göre değişir. 2026 ortası itibariyle: Matematik olimpiyat (AIME/FrontierMath) → o3 ve o4 lider; Genel bilim (GPQA) → o3 + Gemini 2.5 Deep Think yakın; Otonom yazılım (SWE-bench Verified) → Claude Opus 4.7 Extended Thinking + o4 dominant; Açık kaynak / cost-aware → DeepSeek R1 (özellikle V3.1 ile birlikte); Maliyet optimal long-context reasoning → Gemini 2.5 Pro Deep Think; Hibrit (kısa+uzun reasoning) → Qwen3 mixed-mode. Modül 1 ve 11'de bu karşılaştırma somut benchmark sayılarıyla netleştirilir.

Reasoning model her zaman daha iyi mi? Klasik chat LLM ne zaman tercih edilmeli?

Hayır, reasoning model her zaman daha iyi değil. Reasoning model dezavantajları: yüksek maliyet (3-10x output token), yüksek latency (5-60 saniye), bazı görevde over-thinking (basit soruda 5K reasoning token harcama). Klasik LLM optimal: kısa soru-cevap, RAG retrieval-augmented generation, basit özetleme, formal translation, chitchat. Reasoning optimal: math olimpiyat, algoritma tasarımı, çok-adımlı planning, complex debugging, scientific reasoning, formal verification. Modül 9'da reasoning router (classic LLM + reasoning fallback) tasarımı production maliyetini %40-70 düşürür.

Kendi reasoning model'imi (Qwen3 ya da Llama 3.3 8B üzerine) eğitebilir miyim?

Evet — Modül 5 GRPO + rule-based reward ile R1-style emergence pipeline'ı pratik kurar; Modül 6 ise R1/o3 reasoning trace'lerinden distillation reçeteleriyle (S1 1K örnek, LIMO 817 örnek) az veriyle reasoning model üretmenin reçetesini verir. 7B-32B ölçekte tek H100 + 1-3 günlük training ile production-grade domain reasoning model üretebilirsiniz. Türkçe matematik / kod / hukuk reasoning için pipeline detaylı işlenir.

S1 (Stanford) sadece 1000 örnekle o1-mini seviyesi nasıl elde edebiliyor?

S1'in sırrı üç adımda: (1) 1.000 örneklik high-quality dataset (Google Gemini 2 Thinking + zorluk filtering), (2) SFT (sadece, RL yok), (3) budget forcing — inference'ta 'Wait,' veya 'But' token'larıyla model'i daha uzun düşünmeye zorlama. Qwen2.5-32B base üzerine SFT ile o1-mini'yi math benchmark'ında geçer. LIMO (Less Is More) ise 817 örnekle aynı sonucu Qwen2.5-32B-Instruct üzerinde elde eder. Modül 6 bu reçeteleri implementasyon detayıyla işler ve katılımcı kendi domain'inde dener.

Test-time compute scaling: gerçekten pre-train compute'tan daha verimli mi?

Görev zorluğuna bağlı. Snell 2024 yasalarına göre: kolay görevde pre-train compute baskın (test-time'ın marjinal kazanımı az), zor görevde test-time compute scaling (best-of-N, MCTS, sequential refinement) çok daha verimli. 1 GPU-saat reasoning compute, 14x daha küçük model + pre-training'e kıyasla zorda 30-50% kazanım sağlayabilir. Modül 4 bu trade-off'u FLOPS ekonomisi ile somut gösterir ve görev zorluğuna göre dinamik compute allocation disiplini kazandırır.

Reasoning model'i production'da serve etmek vLLM mi SGLang mı TensorRT-LLM mı?

Senaryoya bağlı. Açık kaynak prototip + hızlı geliştirme → vLLM (en yaygın). Reasoning-aware caching + multi-tenancy + yüksek concurrency → SGLang (RadixAttention özellikle uzun reasoning prefix optimize ediyor). NVIDIA-only, ultra-low latency + speculative decoding → TensorRT-LLM. Modül 10 her birinin somut benchmark sayılarıyla karşılaştırma sunar; 32K reasoning token serving senaryosunda SGLang RadixAttention vLLM'e göre %2-3x hızlı.

Mixed-mode reasoning (Qwen3 /think /no_think) gerçek production'da işe yarıyor mu?

Evet — Anthropic ve Alibaba'nın 2026 production data'sı %40-70 cost reduction gösteriyor. Anahtar: query classifier (sorgu zorluğu tahmini) + dynamic thinking budget allocation + early exit kriterleri. Basit sorguya reasoning gerek yok → no_think modu → 3-10x ucuz. Karmaşık sorgu → think modu + adaptive budget. Modül 9'da bu router'ın Python implementasyonu, A/B test metodolojisi ve confidence-aware fallback pattern'ları detaylı işlenir.

ARC-AGI 2 ile o3 ve R1 hangi seviyede? AGI'a ne kadar yakınız?

OpenAI o3, ARC-AGI 1'i 2024 sonunda %87.5 (high compute setting) ile geçti — insan ortalaması seviyesinde. ARC-AGI 2 (2025) Chollet ekibi tarafından daha zor seviyede yayınlandı; o3 bu sürümde önemli ölçüde düştü (~%30 high compute), R1 ise ~%15. ARC-AGI 'AGI testi' değildir — abstract pattern reasoning'i ölçer; AGI tanımı tartışmalı. Modül 11.3'te ARC-AGI 1 vs 2 karşılaştırması, contamination tespiti ve reasoning model'lerin gerçek transfer öğrenmesi tartışılır.

Reasoning model'lerin hidden thinking trace'i güvenlik riski mi?

Evet — iki ana risk var. (1) Reasoning trace leak: prompt injection ile model'in gizli düşünme trace'inin user'a sızdırılması (Anthropic'in summary-only policy'sinin nedeni). (2) Trace-based jailbreak: kötü niyetli user'ın reasoning trace'i manipüle ederek model'i policy violation'a yönlendirmesi. Modül 2.3 ve 11'de bu risklerin detaylı işlenmesi + mitigation reçetesi (thinking block sanitization, trace-aware safety filter, dual-judge architecture) sunulur.

Eğitim sonunda elimde hangi somut artefaktlar olacak?

Capstone projesinde şu artefaktlar üretilir: (1) Kendi domain'inize özel end-to-end reasoning sistem mimarisi + Python codebase, (2) GRPO + rule-based reward ile eğitilmiş 7B-32B reasoning model checkpoint (opsiyonel), (3) S1/LIMO tarzı distilled reasoning model (opsiyonel), (4) Mixed-mode + reasoning router implementation, (5) vLLM veya SGLang production serving template, (6) Custom domain benchmark + AIME/MATH-500 baseline raporu, (7) Cost analizi (compute saatleri + token economics), (8) 90 günlük production roadmap (thinking budget tuning + router optimization).

Eğitim kurumsal ekibimize özel uyarlanabilir mi?

Evet. Standart 3 günlük programın yanında, kurumsal müşteriler için özelleştirilmiş kapalı sınıf versiyonlar düzenliyoruz. Ekibinizin mevcut LLM provider stack'i (OpenAI / Anthropic / Google / DeepSeek / hibrit), domain (finans, sağlık, hukuk, kamu, eğitim), compute altyapısı (cloud / on-premise / hibrit), compliance gereksinimleri (KVKK, EU AI Act, ISO/IEC 42001, HIPAA) ve hedef use case (chatbot reasoning, kod review, klinik triaj, finansal modelleme) dikkate alınarak modül ağırlıkları + capstone senaryoları özelleştirilir.

Bu eğitim hakkında

OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking, Qwen3 Reasoning ve GLM-4.6 paradigmasını uçtan uca işleyen; test-time compute scaling, process reward modeling, R1-style RL emergence, reasoning distillation (S1/LIMO), Tree-of-Thoughts/MCTS pattern'ları ve production inference (vLLM/SGLang/TensorRT-LLM) konularını birleştiren 3 günlük ileri seviye Türkçe reasoning model mühendisliği eğitimi.

Bu eğitim şu kitleler için tasarlanmıştır: Reasoning model'leri (o3/o4/R1/Gemini Deep Think/Claude Extended Thinking) kurumsal ürünlere entegre etmek isteyen AI Engineer'lar Kendi açık kaynak reasoning model'ini (Qwen3, R1-distill) domain'ine özel eğitmek isteyen ML Engineer'lar AI Research'ta R1-style RL emergence ve test-time compute scaling üzerinde çalışan AI Researcher'lar Matematik, kod, hukuk, klinik veya finansal reasoning sistemi inşa etmek isteyen senior backend developer'lar Production reasoning model serving (vLLM, SGLang) ve cost optimization yapması gereken ML Platform mühendisleri Reasoning model'lerin maliyetini düşürmek için mixed-mode + thinking budget routing kurmak isteyen teknik liderler

Bu eğitim neden önemli: OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking, Qwen3 Reasoning paradigmasını Türkçe işleyen tek production-grade ileri seviye programdır. Test-time compute scaling, R1-style RL emergence ve reasoning distillation reçetelerini bir arada öğretir. Reasoning model + klasik prompt-CoT pattern'ları (CoT, ToT, MCTS, Reflexion) karşılaştırmalı kanıt-tabanlı analiz sunar. Mixed-mode + thinking budget mühendisliği ile production'da %40-70 cost reduction reçetesi kazandırır. vLLM, SGLang, TensorRT-LLM ile long-trace reasoning serving disiplinini öğretir. AIME, MATH-500, GPQA Diamond, ARC-AGI, SWE-bench Verified, FrontierMath modern benchmark setini uçtan uca kapsar. Kendi domain'inize özel reasoning sistemi tasarlama disiplini (math tutor, code agent, legal reasoner) ile capstone üretimi sağlar. RLHF eğitimiyle tamamlayıcı: orada hizalama algoritmaları, burada reasoning model'leri kullanma ve dağıtma.

Eğitim sonunda kazanacağınız çıktılar: OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking iç yapılarını çözebilirsiniz. Test-time compute scaling yasalarını uygulayarak compute bütçesini kanıt-tabanlı optimize edebilirsiniz. Outcome Reward ve Process Reward Model arasında doğru seçim yapabilirsiniz. R1-style RL ile kendi reasoning model'inizi eğitebilirsiniz. S1, LIMO, Bespoke-Stratos distillation reçeteleriyle az veriyle güçlü reasoning model üretebilirsiniz. Chain-of-Thought, Tree-of-Thoughts, Self-Refine, Reflexion, MCTS pattern'larını implement edebilirsiniz. Mixed-mode reasoning + dynamic thinking budget ile reasoning maliyetini %40-70 düşürebilirsiniz. vLLM, SGLang, TensorRT-LLM ile reasoning model'leri production'da serve edebilirsiniz. Modern benchmark setiyle (AIME, MATH-500, GPQA, ARC-AGI, SWE-bench) reasoning sistemi değerlendirebilirsiniz. Kendi domain'inize özel (math/code/legal/clinical/financial) reasoning sistemi tasarlayabilirsiniz.

Ön koşullar ve önerilen birikim: Aktif Python deneyimi (orta-üst seviye), PyTorch ve HuggingFace Transformers temel kullanımı LLM API kullanımı (OpenAI, Anthropic veya Google) temel deneyim Linear algebra, olasılık ve gradient descent gibi ML temel matematiği RLHF/DPO kavramlarına temel aşinalık (önerilir; RLHF eğitimi tamamlayıcıdır) Eğitim öncesinde GPU erişimi (RunPod, Lambda Labs, Modal) — H100 veya 2x A100 önerilir Eğitim öncesinde OpenAI o3 / Claude Opus / Gemini 2.5 Pro / DeepSeek R1 API erişimi

OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking ve Qwen3 reasoning paradigmasını uçtan uca işleyen Türkiye'deki tek ileri seviye program
Test-time compute scaling yasalarını (Snell 2024) parallel + sequential + search-tabanlı scaling pattern'larıyla derinlemesine kapsama
Outcome Reward (ORM) ve Process Reward (PRM) farkını Math-Shepherd, Tülu 3 PRM, Implicit PRM ile kanıt-tabanlı netleştirme
R1-Zero (pure RL) ve R1 (multi-stage) pipeline'larının iç yapısı + rule-based reward tasarım reçetesi
Reasoning distillation reçeteleri: OpenThoughts, S1, LIMO, Bespoke-Stratos, DeepScaleR ile az veriyle reasoning
CoT, ToT, Self-Refine, Reflexion, RAP, MCTS pattern'larının Python implementasyonu + benchmark karşılaştırması
Hibrit/mixed-mode reasoning ve thinking budget mühendisliği ile %40-70 cost reduction reçetesi
Production inference (vLLM, SGLang, TensorRT-LLM) ve modern benchmark seti (AIME, MATH-500, GPQA, ARC-AGI, SWE-bench) uçtan uca disiplin

Anahtar Çıkarımlar

OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking iç yapılarını çözebilirsiniz.
Test-time compute scaling yasalarını uygulayarak compute bütçesini kanıt-tabanlı optimize edebilirsiniz.
Outcome Reward ve Process Reward Model arasında doğru seçim yapabilirsiniz.
R1-style RL ile kendi reasoning model'inizi eğitebilirsiniz.
S1, LIMO, Bespoke-Stratos distillation reçeteleriyle az veriyle güçlü reasoning model üretebilirsiniz.
Chain-of-Thought, Tree-of-Thoughts, Self-Refine, Reflexion, MCTS pattern'larını implement edebilirsiniz.
Mixed-mode reasoning + dynamic thinking budget ile reasoning maliyetini %40-70 düşürebilirsiniz.
vLLM, SGLang, TensorRT-LLM ile reasoning model'leri production'da serve edebilirsiniz.
Modern benchmark setiyle (AIME, MATH-500, GPQA, ARC-AGI, SWE-bench) reasoning sistemi değerlendirebilirsiniz.
Kendi domain'inize özel (math/code/legal/clinical/financial) reasoning sistemi tasarlayabilirsiniz.

İleri Seviye3 Gün

Reasoning Models Mühendisliği Eğitimi (o3, o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking)

Hemen Kaydol

Eğitim Hakkında

Bu eğitim, OpenAI o1'in Eylül 2024'te lansmanıyla başlayan ve 2025-2026 boyunca DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking, Qwen3 Reasoning, GLM-4.6-thinking ve GPT-5 reasoning modu ile dünya AI ekosisteminin merkezine yerleşen reasoning LLM paradigmasını uçtan uca işlemek üzere tasarlanmıştır. Reasoning model'leri klasik LLM'lerden ayıran şey sadece daha uzun çıktı değil; chain-of-thought davranışının post-training sürecinde explicit hedef olarak eğitilmesi, thinking trace ile final answer arasındaki yapısal ayrım, test-time compute'un model performansının birinci dereceden belirleyicisi haline gelmesi ve süreç ödüllendirme (process reward) ile alignment paradigmasının değişmesidir. Türkiye'de bu disiplini System 1 vs System 2 düşünme teorisi, R1-style RL emergence, reasoning distillation reçeteleri, MCTS-tabanlı search, hibrit/mixed-mode reasoning ve production inference engineering ile uçtan uca işleyen bir eğitim neredeyse yoktur; mevcut içerikler ya o1/R1 makale özetlerinde kalıyor ya da prompt-CoT seviyesinde yüzeysel. Bu program söz konusu boşluğu Türkiye'nin en kapsamlı production-grade reasoning models referans eğitimi olarak doldurmak üzere tasarlanmıştır.

Programın stratejik omurgasını, klasik chat LLM (System 1 — hızlı/sezgisel) ve reasoning LLM (System 2 — yavaş/deliberatif) arasındaki yapısal farkı net çerçeveleyen ilk modül oluşturur. Kahneman'ın dual-process bilişsel modeli LLM düzlemine projekte edilir; OpenAI o1 → o3 → o4 evrimi, DeepSeek R1'in Ocak 2025'te yarattığı açık kaynak şoku, Gemini 2.5 Deep Think + Claude Extended Thinking + Qwen3'ün takip eden hareketleri tarihsel olarak haritalandırılır. Hangi görevde reasoning, hangi görevde klasik LLM optimal — bu soruya somut karar matrisi sunulur: matematik olimpiyat seviyesinde problem çözme, algoritma tasarımı, complex code debugging, multi-step planning, scientific reasoning, formal verification görevlerinde reasoning model belirgin üstün; kısa soru-cevap, hızlı RAG, summarization, basit translation görevlerinde klasik LLM daha verimli. Cost-latency-quality üçgeninde optimal seçim disiplini kazandırılır.

Reasoning model'lerin iç anatomisini ele alan ikinci modül, post-training sürecinde chain-of-thought davranışının nasıl induce edildiğini, thinking blocks ile output token arasındaki yapısal ayrımı, ve provider bazlı protokol farklarını uçtan uca işler. Anthropic Claude Extended Thinking API'nin thinking blocks + budget_tokens (1K-32K) yapısı; OpenAI Reasoning Items + reasoning_effort (minimal / low / medium / high) parametreleri; Google Gemini 2.5 Pro Thoughts + thinking_config; DeepSeek R1 ve Qwen3'ün ... protokolü; GLM-4.6-thinking yaklaşımı — her birinin avantajları, sınırları ve API kullanım detayları gösterilir. Hidden reasoning trace (OpenAI'in summary-only policy'si) ile open reasoning trace (DeepSeek R1'in tam trace'i) arasındaki strategic ve security trade-off netleştirilir; reasoning trace'in prompt injection attack surface'i olarak rol oynaması ve mitigation stratejileri ele alınır.

Reasoning model eğitiminin en kritik bileşeni olan reward sinyalini iki perspektiften ele alan üçüncü modül outcome reward (ORM) ve process reward (PRM) ayrımını detaylı işler. ORM yaklaşımında math problem'in nihai cevabı (SymPy exact match + numeric tolerance), code'un test pass-rate'i (pytest) veya format compliance (regex verifier) gibi kural-tabanlı sinyallerle reward verilir; DeepSeek-Math ve R1'in başarısının temel taşı bu yaklaşımdır. PRM ise her ara reasoning adımını puanlar — AllenAI Tülu 3 PRM (2025), Math-Shepherd otomatik process supervision üretimi, OpenAI PRM800K dataset, Yuan 2024 Implicit PRM (outcome reward'dan PRM türetme) yaklaşımları karşılaştırmalı işlenir. Hangi reasoning görevinde ORM, hangisinde PRM optimal — bu karar somut benchmark verisiyle netleştirilir; PRM'in reward hacking riskleri ve mitigation reçetesi sunulur.

Programın teorik zirvesi, Charlie Snell ve DeepMind ekibinin 2024'te tanıttığı test-time compute scaling yasalarına ayrılan dördüncü modüldür. Pre-train compute ile test-time compute arasındaki marjinal kazanım dengesi, görev zorluğuna göre optimal compute allocation, parallel scaling (best-of-N, self-consistency majority vote, weighted voting with PRM), sequential scaling (Self-Refine ve Reflexion ile iteratif iyileştirme), search-tabanlı scaling (MCTS, REBASE, beam-guided) yöntemleri kapsamlı şekilde işlenir. 1 GPU-saat reasoning compute'unun 1 GPU-saat pre-training compute ile karşılaştırması somut FLOPS ekonomisi ile yapılır; compute bütçesinin görev zorluğuna göre dinamik tahsis edilmesi disiplini kazandırılır.

Beşinci modül DeepSeek R1 ve R1-Zero pipeline'larını uçtan uca çözümler. R1-Zero — cold-start SFT olmadan pure RL ile reasoning emergence'in mümkün olduğunu kanıtlayan ilk model — paradigmatik bir bulgudur; aha-moment olgusu, reasoning length emergence, language mixing problemi ve mitigation reçetesi detaylı işlenir. R1'in multi-stage pipeline'ı (SFT cold-start → reasoning RL → SFT karışım → general RL) adım adım çözümlenir. Rule-based reward design — math için SymPy exact match + numeric tolerance, code için pytest pass-rate, format compliance için regex verifier — pratik olarak yapılır. Open-source reproduction projeleri (HuggingFace Open-R1, ByteDance DAPO, SimpleRL-Zoo, TinyZero, Open-Reasoner-Zero) karşılaştırmalı incelenir; katılımcılar kendi 7B-32B base model'lerinde GRPO + rule-based reward ile reasoning emergence deneyebilir.

Altıncı modül, R1 ve diğer büyük reasoning model'lerin yeteneklerini 1.5B-32B kompakt modellere SFT-tabanlı distillation ile aktarmanın mühendisliğini ele alır. OpenThoughts-114K, S1.1K (Stanford 2025 — 1.000 örnekle o1-mini seviyesi), LIMO-817 (sadece 817 örnekle %95 AIME doğruluğu), Bespoke-Stratos-32B, Sky-T1, DeepScaleR-1.5B projelerinin dataset oluşturma reçeteleri, teacher model'den (R1 / o3 / Gemini Deep Think) reasoning trace toplama stratejileri, quality filtering disiplini (zorluk + doğruluk + çeşitlilik dengelemesi) detaylı işlenir. Türkçe matematik, kod ve hukuk domain'inde özel reasoning distillation pipeline'ı kurulur; Qwen3-0.5B veya Llama 3.2 1B base model üzerine domain-specific reasoning model üretilir. Distillation + GRPO hibrit yaklaşımı production reçetesi olarak sunulur.

Yedinci modül, dedicated reasoning model olmadan klasik LLM'ler üzerinde dahi reasoning davranışını uyandıran sezgisel prompt + inference pattern'larını uçtan uca işler. Chain-of-Thought (Wei 2022), Self-Consistency (Wang 2023), Tree-of-Thoughts (Yao 2023), Self-Refine (Madaan 2023), Reflexion (Shinn 2023), Reasoning via Planning (Hao 2023), Plan-and-Solve (Wang 2023) algoritmalarının her biri matematik formülasyonu + Python implementasyonu + benchmark sonuçlarıyla işlenir. Native reasoning model (R1, o3) vs prompt-tabanlı CoT (GPT-4o, Claude Sonnet) karşılaştırması somut benchmark'larla yapılır — hangi senaryoda native reasoning, hangisinde prompt-tabanlı pattern yeterli olduğu kanıt-tabanlı netleştirilir.

Sekizinci modül DeepMind AlphaZero'nun MCTS yaklaşımının LLM reasoning'e uyarlanmasını detaylı ele alır. Selection (UCB) → Expansion → Simulation → Backpropagation MCTS döngüsü LLM token tree'sine projekte edilir; PRM-guided MCTS ile step value tahmini, ReST-MCTS (Zhang 2024) self-training pipeline, REBASE algoritması (beam-search-style cost-efficient MCTS), AlphaMath (MCTS + LLaMA matematik reasoning) projelerinin implementasyon detayları gösterilir. vLLM ile parallel rollout, c_puct exploration parametresi tuning'i, ve MCTS budget control (zaman, FLOPS, max-depth) production örnekleri ile aktarılır.

Dokuzuncu modül, modern reasoning model'lerin (Claude Opus 4.7, Qwen3, GLM-4.6, GPT-5) çoğunun sunduğu hibrit/mixed-mode yapılarını ve thinking budget mühendisliğini ele alır. Anthropic budget_tokens (1K-32K) + interleaved thinking; OpenAI reasoning_effort parametresi; Qwen3 /think /no_think directive; GLM-4.6 thinking_mode; Gemini 2.5 thinking_config — hepsi pratik karşılaştırmalı işlenir. Sorgu zorluğunu tahmin eden classifier ile dinamik thinking budget routing'i, stage-based budget ile early-exit, confidence-aware routing (classic LLM → reasoning fallback pattern) tasarımı yapılır. Production deneyimde bu disiplin reasoning maliyetini %40-70 düşürür.

Onuncu modül, reasoning model'lerin uzun thinking trace'lerini (4K-32K token) production'da düşük latency ve yüksek throughput ile serve etmenin engineering disiplinini ele alır. vLLM continuous batching + PagedAttention, SGLang RadixAttention + reasoning-aware caching (shared reasoning prefix optimization), TensorRT-LLM speculative decoding (EAGLE-3, MEDUSA), NVIDIA Dynamo inference platform, AMD MI325X ve TPU v6/v7 reasoning inference performance karşılaştırması ile aktarılır. Prefix cache ile sistem prompt + few-shot reasoning'in yeniden kullanımı, KV cache pagination, draft model + verify ile 2-4x latency azaltma reçetesi pratik gösterilir.

On birinci modül, reasoning model'leri değerlendiren modern benchmark setini uçtan uca işler. AIME 2024-2026 (yüksek lise olimpiyat — symbolic checker), MATH-500 (Hendrycks), GPQA Diamond (graduate-level fen), FrontierMath (Tao 2024 — en zor matematik), ARC-AGI 1 ve 2 (Chollet abstract reasoning), LiveCodeBench (timestamp-aware kod), SWE-bench Verified (gerçek GitHub PR çözme), Codeforces ELO, IOI 2024, HumanEval+ — her biri detaylı çözümlenir. Saturation analizi (o3 + R1'in 2026'da hâlâ açtığı benchmark'lar), data contamination tespiti (canary strings + n-gram analizi), pass@k / cons@N / maj@N metrikleri ve custom domain benchmark (hukuk, sağlık, finans) üretimi disiplini kazandırılır.

Capstone modülünde her katılımcı, kendi domain'i için end-to-end bir reasoning sistemi inşa eder: senaryo seçimi (matematik tutor, kod debug agent, hukuk reasoner, klinik triaj sistemi, finansal modelleme asistanı veya katılımcının kendi use-case'i); model seçimi (Claude Opus 4.7 + Extended Thinking, OpenAI o3/o4, DeepSeek R1, Qwen3, distilled S1/LIMO); reasoning pattern (native reasoning, CoT, ToT, MCTS, hibrit); production inference stack (vLLM, SGLang veya TensorRT-LLM); evaluation framework (custom domain benchmark + AIME/MATH-500 baseline); 90 günlük operational roadmap (cost monitoring, thinking budget tuning, reasoning router optimization). Eğitim sonunda katılımcılar; OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking ve Qwen3'ün iç yapısını çözebilecek; test-time compute scaling yasalarını uygulayarak compute bütçesini optimize edebilecek; R1-style RL ile reasoning emergence pipeline'ı kurabilecek; distillation reçeteleriyle (S1, LIMO, Bespoke-Stratos) kendi reasoning model'ini üretebilecek; MCTS, ToT, Self-Refine, Reflexion pattern'larını implement edebilecek; vLLM / SGLang / TensorRT-LLM ile reasoning model serve edebilecek ve modern benchmark setiyle değerlendirme yapabilecek seviyede teknik yetkinliğe ulaşır. Eğitim 3 gün, 12 modül ve 100'ün üzerinde uygulamalı ders içerir.

Eğitim Metodolojisi

OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking ve Qwen3 reasoning paradigmasını uçtan uca işleyen Türkiye'deki tek ileri seviye program

Test-time compute scaling yasalarını (Snell 2024) parallel + sequential + search-tabanlı scaling pattern'larıyla derinlemesine kapsama

Outcome Reward (ORM) ve Process Reward (PRM) farkını Math-Shepherd, Tülu 3 PRM, Implicit PRM ile kanıt-tabanlı netleştirme

R1-Zero (pure RL) ve R1 (multi-stage) pipeline'larının iç yapısı + rule-based reward tasarım reçetesi

Reasoning distillation reçeteleri: OpenThoughts, S1, LIMO, Bespoke-Stratos, DeepScaleR ile az veriyle reasoning

CoT, ToT, Self-Refine, Reflexion, RAP, MCTS pattern'larının Python implementasyonu + benchmark karşılaştırması

Hibrit/mixed-mode reasoning ve thinking budget mühendisliği ile %40-70 cost reduction reçetesi

Production inference (vLLM, SGLang, TensorRT-LLM) ve modern benchmark seti (AIME, MATH-500, GPQA, ARC-AGI, SWE-bench) uçtan uca disiplin

Kimler İçindir?

Reasoning model'leri (o3/o4/R1/Gemini Deep Think/Claude Extended Thinking) kurumsal ürünlere entegre etmek isteyen AI Engineer'lar

Kendi açık kaynak reasoning model'ini (Qwen3, R1-distill) domain'ine özel eğitmek isteyen ML Engineer'lar

AI Research'ta R1-style RL emergence ve test-time compute scaling üzerinde çalışan AI Researcher'lar

Matematik, kod, hukuk, klinik veya finansal reasoning sistemi inşa etmek isteyen senior backend developer'lar

Production reasoning model serving (vLLM, SGLang) ve cost optimization yapması gereken ML Platform mühendisleri

Reasoning model'lerin maliyetini düşürmek için mixed-mode + thinking budget routing kurmak isteyen teknik liderler

Neden Bu Eğitim?

OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking, Qwen3 Reasoning paradigmasını Türkçe işleyen tek production-grade ileri seviye programdır.

Test-time compute scaling, R1-style RL emergence ve reasoning distillation reçetelerini bir arada öğretir.

Reasoning model + klasik prompt-CoT pattern'ları (CoT, ToT, MCTS, Reflexion) karşılaştırmalı kanıt-tabanlı analiz sunar.

Mixed-mode + thinking budget mühendisliği ile production'da %40-70 cost reduction reçetesi kazandırır.

vLLM, SGLang, TensorRT-LLM ile long-trace reasoning serving disiplinini öğretir.

AIME, MATH-500, GPQA Diamond, ARC-AGI, SWE-bench Verified, FrontierMath modern benchmark setini uçtan uca kapsar.

Kendi domain'inize özel reasoning sistemi tasarlama disiplini (math tutor, code agent, legal reasoner) ile capstone üretimi sağlar.

RLHF eğitimiyle tamamlayıcı: orada hizalama algoritmaları, burada reasoning model'leri kullanma ve dağıtma.

Kazanımlar

OpenAI o3/o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking iç yapılarını çözebilirsiniz.

Test-time compute scaling yasalarını uygulayarak compute bütçesini kanıt-tabanlı optimize edebilirsiniz.

Outcome Reward ve Process Reward Model arasında doğru seçim yapabilirsiniz.

R1-style RL ile kendi reasoning model'inizi eğitebilirsiniz.

S1, LIMO, Bespoke-Stratos distillation reçeteleriyle az veriyle güçlü reasoning model üretebilirsiniz.

Chain-of-Thought, Tree-of-Thoughts, Self-Refine, Reflexion, MCTS pattern'larını implement edebilirsiniz.

Mixed-mode reasoning + dynamic thinking budget ile reasoning maliyetini %40-70 düşürebilirsiniz.

vLLM, SGLang, TensorRT-LLM ile reasoning model'leri production'da serve edebilirsiniz.

Modern benchmark setiyle (AIME, MATH-500, GPQA, ARC-AGI, SWE-bench) reasoning sistemi değerlendirebilirsiniz.

Kendi domain'inize özel (math/code/legal/clinical/financial) reasoning sistemi tasarlayabilirsiniz.

Gereksinimler

Aktif Python deneyimi (orta-üst seviye), PyTorch ve HuggingFace Transformers temel kullanımı

LLM API kullanımı (OpenAI, Anthropic veya Google) temel deneyim

Linear algebra, olasılık ve gradient descent gibi ML temel matematiği

RLHF/DPO kavramlarına temel aşinalık (önerilir; RLHF eğitimi tamamlayıcıdır)

Eğitim öncesinde GPU erişimi (RunPod, Lambda Labs, Modal) — H100 veya 2x A100 önerilir

Eğitim öncesinde OpenAI o3 / Claude Opus / Gemini 2.5 Pro / DeepSeek R1 API erişimi

Eğitim Müfredatı

104 Ders

Modül 1: Reasoning LLM Çağına Stratejik Giriş — 2024'ten 2026'ya9 Ders

Modül 2: Reasoning Model Anatomi — Chain-of-Thought Training ve Thinking Blocks9 Ders

Modül 3: Outcome Reward (ORM) vs Process Reward (PRM) — Math-Shepherd ve Implicit PRM9 Ders

Modül 4: Test-Time Compute Scaling Yasaları — Snell, Parallel ve Sequential9 Ders

Modül 5: R1-Style RL ile Reasoning Emergence — Cold-Start, GRPO ve Rule-Based Reward9 Ders

Modül 6: Reasoning Distillation Mühendisliği — R1'den Küçük Modellere Bilgi Aktarımı9 Ders

Modül 7: Sezgisel Inference Pattern'ları — CoT, ToT, Self-Refine, Reflexion, RAP9 Ders

Modül 8: MCTS ve Search-Tabanlı Reasoning — AlphaZero'dan ReST-MCTS'e9 Ders

Modül 9: Hibrit / Mixed-Mode Reasoning ve Thinking Budget Mühendisliği9 Ders

Modül 10: Production Inference Mühendisliği — vLLM, SGLang ve TensorRT-LLM ile Long-Trace Serving9 Ders

Modül 11: Reasoning Benchmark ve Değerlendirme — AIME, MATH-500, GPQA, ARC-AGI, SWE-bench9 Ders

Modül 12: Capstone — Domain-Specific Reasoning Sistemi İnşası5 Ders

Eğitmen

Şükrü Yusuf KAYA

Yapay Zeka Mimarı | Kurumsal AI & LLM Eğitimleri | Stanford University | Yazılım & Teknoloji Danışmanı

Şükrü Yusuf KAYA, yapay zekâ teknolojilerinin küresel iş dünyasına entegrasyonuna öncülük eden, uluslararası deneyime sahip bir Yapay Zekâ Danışmanı ve Teknoloji Stratejistidir. 6 farklı ülkede faaliyet gösteren KAYA, teknolojinin teorik sınırları ile pratik iş ihtiyaçları arasındaki boşluğu doldurarak, bankacılık, e-ticaret, perakende ve lojistik gibi veri açısından kritik sektörlerde uçtan uca yapay zekâ projelerini yönetmektedir. Özellikle Üretken Yapay Zekâ ve Büyük Dil Modelleri (LLM) alanındaki teknik uzmanlığını derinleştiren KAYA, kuruluşların kısa vadeli çözümlere güvenmek yerine geleceği şekillendiren mimariler oluşturmasını sağlamaktadır. Karmaşık algoritmaları ve gelişmiş sistemleri, kurumsal büyüme hedefleriyle uyumlu somut iş değerine dönüştürmeye yönelik vizyoner yaklaşımı, onu sektörde aranan bir çözüm ortağı haline getirmiştir. Danışmanlık ve proje yönetimi kariyerinin yanı sıra eğitmenlik rolüyle de öne çıkan Şükrü Yusuf KAYA, "Yapay Zekâyı herkes için erişilebilir ve uygulanabilir hale getirmek" mottosuyla hareket etmektedir. Teknik ekiplerden üst düzey yöneticilere kadar geniş bir yelpazedeki profesyoneller için tasarlanmış kapsamlı eğitim programları aracılığıyla, kuruluşların yapay zeka okuryazarlığını artırmaya ve sürdürülebilir bir teknolojik dönüşüm kültürü oluşturmaya öncelik veriyor.

Sıkça Sorulan Sorular

Eğitime Başvur

Sınırlı kontenjan ile butik eğitim.

Gelecek Gruplara Kayıt

Sıradaki grup açıldığında öncelikli bilgi almak için kaydınızı bırakın.

Canlı & İnteraktif Oturumlar

Proje Bazlı Öğrenme

Sektör Odaklı Müfredat

Profesyonel Networking

Birebir Danışmanlık

Eğitmen ile özel görüşme planlayın.

Kaydol

Kategoriler

AI Mühendisliği Üretkenlik Araçları

Bu eğitim hakkında

Anahtar Çıkarımlar

Reasoning Models Mühendisliği Eğitimi (o3, o4, DeepSeek R1, Gemini 2.5 Deep Think, Claude Extended Thinking)