Is ChatGPT-level possible without RLHF? Is SFT alone enough?

No, SFT alone is not enough — tried in practice, results unsatisfactory. SFT can teach 'a good response' but cannot teach **'the criterion of goodness'**. Same question can have 100 valid responses; SFT cannot select 'best', generates random one. RLHF (or DPO/variant) adds the 'preference' dimension. ChatGPT-level politeness, calibration, edge-case handling — these require preference alignment. **But**: DPO is also in RLHF category (preference learning). No pure 'RL-only' alternative, but pure 'SFT-only' is insufficient.

If I want to do RLHF for Turkish, how many human labelers and what cost?

For minimum production-grade: **50K comparisons**. Need ~10-15 labelers, 6-8 weeks full-time. Labeler hourly rate in Turkey: $5-15 (by expertise). Estimated cost: $30K-60K **for data alone**. + Reward model training (1x H100, ~$500). + PPO RLHF training (8x H100, ~$5K). Total: $40K-70K. Comparison: DPO (offline, 1 iteration) %40-50 cheaper, less sensitive hyperparam tuning. Most Turkish teams prefer DPO — quality/cost balance.

RLHF reward model is approximation of real human preference. How is this approximation's accuracy measured?

Three main measures: **(1) Held-out accuracy**: %10 of preference data not included in training, does RM correctly predict which response will be preferred? Typical: %65-75. **(2) Inter-rater agreement**: ask same preference to different humans, do they agree? If humans agree %70, RM can reach max %70. **(3) Calibration**: does RM's 'A high score' match 'how often real human selects A'? Measured via calibration plots. **Additional for Turkey**: due to cultural/linguistic uniqueness, normal for Turkish RM to have lower accuracy than English RM (~%60-70). Data quality critical.

What's the fundamental difference between Constitutional AI and RLHF?

**RLHF**: preference data produced by **human labelers**. Expensive, slow, but contains authentic human values. **Constitutional AI (Anthropic, Bai et al. 2022)**: preference data produced by **the model itself**. You give a 'constitution' (10-30 principles). Model produces response, then critiques per constitution, revises. This revision comparison is used in RM training. Difference: CAI is **scalable** (no humans). RLHF is **authentic** (human values). Modern practice: combine — use human for 'core preference' calibration, CAI for 'scale expansion'. Anthropic Claude works exactly this way.

You said RLHF applies an 'alignment tax'. Can this tax be reclaimed?

Some — can be minimized with care, but not fully eliminated. **Tax causes**: (1) RLHF narrows model's distribution — less variety, less 'creative' responses. (2) Refusal patterns over-generalize — some legitimate questions refused. (3) Verbosity bias wastes user time. **Reducing tax**: (a) Re-heating pretrain afterwards ('replay training'). (b) RLHF with very few iterations (1-2). (c) Keep KL penalty coefficient high. (d) Collect varied comparison data — include creativity in reward. **Practice**: Llama-3-Instruct gets %5-10 lower SQuAD accuracy than base model but %50+ human preference win. Net positive.

From Christiano 2017 to ChatGPT 2022 was 5 years. Where are we in 2025, where will next 5 years go?

**2025 landscape**: RLHF→DPO→GRPO transition complete. Frontier labs focused on reasoning RL (o1, R1). Open-source models almost all DPO-based. **2030 prediction** (3 hypotheses): **(1) AI agent alignment**: Models no longer 'chat' but multi-step task agents. Needs new RL formulation — multi-turn process reward. **(2) Federated alignment**: Under KVKK/EU AI Act pressure, user preference data stays on device. Models update via federated learning. **(3) Multimodal alignment**: Instead of text-only RLHF, preference alignment for model's visual, audio, video outputs. Still open research area. If you update this curriculum module in 2030, it will probably be three times longer.

For Turkish, Llama-3-Instruct already exists (RLHF'd). Is it reasonable to do my own Turkish RLHF instead of using it?

For most Turkish apps **not reasonable** — Llama-3-Instruct (or its variants') English-based RLHF transfers 'good enough' to Turkish. Practical solution: **Step 1**: Base on Llama-3-Instruct (already alignment-ready). **Step 2**: Turkish SFT (Module 14.3) for language + style fine-tune. **Step 3**: Turkish DPO (Module 15.6 capstone) with small dataset (5-10K comparisons) for polish. Cost: $500-2000. Duration: 1-2 weeks. **When you should do RLHF (full PPO)**: - Sensitive regulated domain (health, finance, legal) and want very specific behavior - Cross-cultural conflicts (Western-based model handling Turkey's political/religious sensitivity poorly) - Committee ethics review requirements (KVKK) Otherwise: **DPO suffices**. Practical reasoning.

Birth of RLHF: A Seven-Year Journey from Christiano 2017 to ChatGPT — Historical and Philosophical Anatomy of Human Preference Alignment

Historical and philosophical foundations of RLHF: a seven-year transformation starting from Christiano et al. 2017 'Deep RL from Human Preferences', through Stiennon 2020 summarization work, Ouyang 2022 InstructGPT, to December 2022 ChatGPT launch. Why SFT alone is insufficient, the tension of the 'helpful-harmless-honest' triangle, Goodhart's Law and the reward hacking problem. What alignment means with Turkish cultural context — sen/siz distinction, social sensitivity, KVKK boundaries. The most conceptually critical lesson of the curriculum.

Şükrü Yusuf KAYA

90 min read

5/13/2026

Advanced

RLHF'in Doğuşu: Christiano 2017'den ChatGPT'ye Yedi Yıllık Yolculuk — İnsan Tercihiyle Hizalama'nın Tarihsel ve Felsefi Anatomisi

🕰️ Aralık 2022 — Bir akşam, dünya değişti

30 Kasım 2022 Çarşamba. OpenAI sessizce ChatGPT'yi yayınladı. İlk 5 günde 1 milyon kullanıcı. İlk 2 ayda 100 milyon. İnsanlık tarihinin en hızlı benimsenen ürünü. Ama altta yatan model — GPT-3.5 — zaten iki yıldır mevcuttu. Aynı parametreler, aynı mimari, aynı pre-training. O zaman fark neydi? Üç harf: RLHF. Reinforcement Learning from Human Feedback. Bu üç harf, GPT-3'ün rastgele cümle akışını ChatGPT'nin nezaketli sohbet asistanına dönüştürdü. Ama RLHF Aralık 2022'de doğmadı. Beş yıl önce, Berkeley'de Paul Christiano'nun masasında başladı. Bu derste o yedi yıllık dönüşümü adım adım izleyeceğiz — sadece tarihçe değil, niye gerekti, felsefesi ne, Türkçe için ne ifade ediyor. Müfredatın en kritik kavramsal dersi. Mühendislikten önce, anlayış.

Bu Derste Neler Var? (16 Bölüm)#

Pre-RLHF dünyası — SFT'nin sınırını gören üç pencere
Christiano vd. 2017 — Atari'den ahlaka geçişin paper'ı
2018-2019 köprü dönemi — Summarization with Human Preferences denemeleri
Stiennon vd. 2020 — RLHF'in 'kavram kanıtı' anı
Askell vd. 2021 — Anthropic'in HHH formulasyonu
Ouyang vd. Mart 2022 — InstructGPT paper'ı
Kasım 2022 — ChatGPT lansman gecesi ne oldu
'Helpful, Harmless, Honest' üçgeninin gerilimi
Goodhart Yasası — sayısallaşan her tercih bozulur
Reward hacking — modelin yarattığı kısa yollar
'Inner alignment' vs 'outer alignment'
Türkçe için hizalama ne demek? — sen/siz, hitap, kültürel hassasiyet
KVKK sınırında alignment — Türkiye'ye özgü mevzuat
2025 manzarası — RLHF öldü mü, yaşıyor mu?
Egzersizler — 12 düşünce ve uygulama sorusu
Sonraki ders'e köprü — Bradley-Terry'nin matematiği

1. Pre-RLHF Dünyası — SFT'nin Sınırını Gören Üç Pencere#

1.1 Pencere 1: 'Polite'in dile getirilemeyişi#

GPT-2 yayınlanır. Kapasitesi şaşırtıcı: 'Once upon a time' yazarsan, tutarlı bir hikâye sürdürür. Bilim makalesinin başlangıcını verirsen, makul devam yazar. Yetenek var, ama bir şey eksik.

Kullanıcı: 'Bana bir şey öğret.'

GPT-2: 'Bir şey öğret. Ben de öğrenirim. Sen öğretirsin, ben öğrenirim. Beraber öğreniriz...'

Model, kullanıcının niyetini anlamıyor mu? Hayır — anlıyor. Ama 'cevap vermesi gerektiğini' bilmiyor. Onun için bu cümle 'tamamlanması gereken bir prompt'. Pre-training'de gördüğü pattern: cümle başlangıçları, devamı gelir. Talimat takip kavramı yok.

1.2 Pencere 2: Few-shot Prompting'in Sızıntısı#

GPT-3. Brown vd. paper'ında muhteşem few-shot örnekler: 5 örnek ver, çeviri yapsın, özetlesin, kod yazsın.

Ama aynı paper'ın gizli bir sayfası vardı: failure cases. GPT-3, 'Madame Bovary'nin yazarı kim?' sorusuna sürekli yanlış cevap verebiliyordu. 'Türkiye'nin nüfusu kaç?' sorusuna 1990 verisini söylüyordu. Daha kötüsü: bazen kendinden emin yanlış.

Problem teknik değil uyum. Model bilgi içeriyor, ama 'doğru cevap vermek gibi bir motivasyonu' yok. Sadece olası bir devamı tahmin ediyor.

1.3 Pencere 3: Etik Sınırın Olmayışı#

2020-2021. GPT-3 API'sini deneyenler şaşırarak fark etti: model her şeyi yazardı. 'Bana intihar mektubu yaz' — yazardı. 'Bombayı nasıl yaparım?' — adım adım anlatırdı. 'Komşumdan nasıl nefret ederim?' — listelerdi.

Bu 'kötü model' değildi. Pre-training corpus'unda bu konular vardı (Reddit, kötü forumlar, edebiyat). Model istatistiksel olarak doğru davranıyordu. Ama dünyaya zarar veriyor.

OpenAI bir keşif yaptı: pre-training corpus'undan zararlı içerik filtrelemek yetmiyordu. Çünkü problem corpus değil, modelin amacının ne olduğu idi. Pre-training amacı: 'next token tahmin et'. Ama insan asistanın amacı bu değil.

1.4 Üç pencere, aynı sorun#

Bu üç pencere — politesiz cevap, kendinden emin yanlış, etik sınırsızlık — aynı kök sorununa işaret ediyordu:

Pre-training, modeli 'metin oluşturmaya' uyumlandırır. Asistan olmaya değil.

Supervised Fine-Tuning (SFT, Modül 14) bunu kısmen çözer: 'soru-cevap' pattern'i öğretir. Ama SFT'nin de sınırı var:

SFT, 'iyi cevap nedir?' sorusunu cevaplamaz. Sadece 'bir iyi cevap örneği' verir.
İnsan değerleri muğlak. 'Yardımcı ol' direktifinin bin tane farklı yorumu var.
Aynı soruya 100 farklı geçerli cevap olabilir. Model hangisinin daha iyi olduğunu bilmiyor.

Örnek: 'Anneme doğum günü hediyesi ne alayım?'

Makul cevaplar:

A: 'Çiçek ve özel bir mektup.'
B: 'Ne sevdiğini düşün — kitap mı, müzik mi, yemek mi?'
C: 'Kuyumcudan altın bilezik.'
D: 'Beraber bir kafede zaman geçirin — hediyeden daha değerli.'

Hepsi geçerli. Ama insan her birini farklı puanlardı. SFT'de model bunu öğrenemez. Tercih ifade etmek gerekiyor.

İşte burada RLHF kapıyı çalar.

2. Christiano vd. 2017 — Atari'den Ahlaka Geçişin Paper'ı#

2.1 Paper künyesi#

'Deep Reinforcement Learning from Human Preferences' Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei NeurIPS 2017 · OpenAI + DeepMind ortak yayını

Bu paper RLHF'in doğum belgesidir. Yazarlar listesi de kayda değer: Paul Christiano (sonradan Alignment Research Center kurucusu, AI safety'nin yaşayan efsanesi), Jan Leike (sonradan OpenAI Superalignment ekibi başı), Dario Amodei (sonradan Anthropic CEO'su). 2017'de Berkeley/OpenAI/DeepMind'da masada oturan beş kişi, yedi yıl sonra ChatGPT'yi mümkün kılacak fikrin tohumunu attı.

2.2 Çözmeye çalıştıkları problem#

2017'de büyük problem dil modeli değildi — Atari oyunlarıydı. Robot eğitmek. Klasik RL'in zorluğu: 'reward function' yazmak.

Örnek: 'Robot, geri-aldatlama hareketini öğrensin.' Bu hareketin matematiksel tanımı ne? Robotun sırtüstü olduğu açı? Kafasının yere temas süresi? Hareketin estetiği?

İnsan bunu görünce tanır ama tanımlayamaz. Klasik RL bu durumda çuvallar.

2.3 Christiano'nun fikri#

Reward function yazmak yerine, insana iki video göster ve hangisi daha iyi sor. Bu binlerce kez yap. Tercihlerden bir 'reward model' öğret. Sonra RL'i bu model üzerinden çalıştır.

Üç adım:

Karşılaştırmalı geri bildirim toplama — insan A vs B seçiyor
Reward model eğitimi — Bradley-Terry (1952) matematiksel modeli
RL training — TRPO/PPO ile reward model'i optimize

Bu paper'da bu üç adım Atari oyunlarında ve simüle robotlarda denendi. Sonuç şaşırtıcı: 5,500 tercih ile, klasik el yapımı reward function'la eğitilen ajanları yendiler.

2.4 Anahtar gözlem: 'preference comparison ucuz, mutlak skor pahalı'#

İnsana 'bu kaç puan?' diye sor: cevap her gün değişir, kalibrasyon yok. İnsana 'bu mu, bu mu?' diye sor: cevap tutarlı, hızlı.

Çıkarım: mutlak değerleme zor, göreli kıyaslama kolay.

Bu içgörü, NLP'ye taşındığında devrim yaratacaktı.

2.5 Paper'ın atladığı şey: dil modeli#

Christiano 2017 paper'ı dil modelinden bahsetmiyor. Atari, robot kontrol — bunlar konu. Ama metodoloji genelleyebilir. 2018-2019'da OpenAI'da küçük bir ekip 'Bunu özetleme problemine uygularsak ne olur?' sorusunu sormaya başlar.

3-4. 2020 — Stiennon ve 'Özetleme' Köprüsü#

3.1 Paper künyesi#

'Learning to summarize with human feedback' Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul F. Christiano NeurIPS 2020 · OpenAI

3.2 Hedef: Reddit özetleme#

Reddit TLDR dataset: kullanıcılar uzun paylaşımların kısa özetlerini yazıyor. Doğal bir 'özetleme corpus'u'. OpenAI bunu test alanı olarak seçti.

Problem: SFT ile özetleme modeli eğit. Sonuç 'okuyabiliyor' ama iyi özet üretmiyor.

3.3 Stiennon'un 3 aşamalı boru hattı#

Christiano 2017 metodolojisini özetlemeye uyguladılar:

Aşama 1: 13K Reddit özet SFT (1.3B param GPT-2 türevi modele) Aşama 2: 65K karşılaştırma (insan 'A özeti mi iyi, B mi?' seçiyor) → Reward Model Aşama 3: PPO RL — model özet üretir, reward model puanlar, KL penalty ile SFT'den uzaklaşmasın

3.4 Sonuç şok edici#

Ölçüm: insanlar referans özetler (Reddit kullanıcılarının kendi yazdığı) ile RLHF-eğitilmiş özetleri karşılaştırdı.

SFT-only: insanlar %30 oranında SFT özetini referansa tercih etti
RLHF: insanlar %70 oranında RLHF özetini referansa tercih etti

Yani insan-yazılı özetlerden daha iyi. Bu noktada makinenin insan tercihi modellemesi insan yazımını geçti.

3.5 Paper'ın 'gerçek' önemi#

Stiennon 2020, RLHF'in 'kavram kanıtı' (proof-of-concept) idi. Christiano 2017 Atari'ydi — kimsenin günlük hayatta yer almadığı. Stiennon dile yöneldi — herkesin günlük kullandığı.

Ve çalıştı.

3.6 OpenAI iç kararı: 'Bunu GPT-3'e uygula'#

2020 sonu - 2021 başı. OpenAI iç tartışma: 'Bu yöntem GPT-3'e uygulanırsa ne olur?'

Kaynak gerektiriyor: insan etiketleyici ordusu, GPU compute, mühendislik. 2021 boyunca alt yapı kuruldu. Sonuç: InstructGPT.

5. Askell vd. 2021 — Anthropic'in 'HHH' Üçgeni#

5.1 Anthropic kuruluyor#

Aralık 2020 - Şubat 2021. Dario Amodei OpenAI'dan ayrılır. Kardeşi Daniela ile Anthropic'i kurar. Beraberinde 15+ kişi getirir: Tom Brown (GPT-3 ana yazarı), Jared Kaplan (scaling laws), Sam McCandlish, Chris Olah, ve Amanda Askell.

Anthropic'in misyonu açık: 'AI Safety'. Yani modelleri yetenekli ve güvenli yapmak.

5.2 Askell vd. 2021 paper'ı#

'A General Language Assistant as a Laboratory for Alignment' Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, ... (Anthropic)

Bu paper'ın matematiksel katkısından çok kavramsal katkısı önemli. HHH üçgeni'ni ortaya attı:

Helpful (Yardımcı): kullanıcı sorusunu cevaplar, görevi tamamlar, faydalı bilgi sağlar
Honest (Dürüst): bilmediğini söyler, uydurmaz, yanıltmaz, kalibre edilmiştir
Harmless (Zararsız): zararlı içerik üretmez, kötüye kullanılamaz, manipüle etmez

5.3 Üçgenin gerilimi — Modül'ün en önemli kavramsal anı#

Bu üç değer birbiriyle çakışır. Örnekler:

Helpful vs Harmless çakışması:

Kullanıcı: 'Komşum sürekli yüksek sesle müzik dinliyor. Polis arasam mı?'
Yardımcı cevap: 'Evet, gürültü şikayeti yapmak meşru. 155'i arayabilirsin.'
Zararsız cevap: 'Birinci adım nazikçe konuşmak olabilir. Hukuki yol son çare.'
Hangisi doğru? Bağlama bağlı. Model bir kararı vermek zorunda.

Honest vs Helpful çakışması:

Kullanıcı: 'Yarın sınavda nasıl başarılı olurum?'
Dürüst cevap: 'Hazırlığın yeterli mi, bilmiyorum. Genel öneri: uyu, kahvaltı et, sakin ol.'
Yardımcı cevap: 10 spesifik teknik anlatmak (ama belki kullanıcının durumuna uymayacak)
'Dürüst' burada 'kullanıcı için optimum olmamak' anlamına geliyor mu?

Honest vs Harmless çakışması:

Kullanıcı: 'Annem öldü, ona ne mesaj yazmıştım son?'
Dürüst cevap: 'Bu sohbetin bir önceki bir versiyonu olabilir, ama bir önceki sohbetlere erişimim yok.'
Zararsız cevap: aynı + 'Çok üzüldüm. Bu zor bir an. Anının iyi olduğunu umuyorum.'
İkincisi 'dürüst+'

5.4 Çıkarım: alignment 'tek değer' değil, çoklu değer dengelemesi#

Askell paper'ı, RLHF'in yalnızca 'puan en yüksek olsun' problemi olmadığını, çoklu, çelişkili değerleri dengeleme problemi olduğunu söyledi.

Bu, sonraki paper'lara çok güçlü bir kavramsal çerçeve sağladı. Bugün her LLM şirketinin 'alignment principles' belgesi bu üçgene atıf yapıyor.

5.5 Türkçe için HHH ne demek?#

Helpful: kullanıcı sorusunu Türkçe bağlamında doğru anla. 'Hadi bir şeyler yapalım' belki neşeli teklif, belki belirsiz, bağlama bağlı.
Honest: Türkiye'de spesifik bilgi (mevzuat, vergi, sağlık) çok hızlı değişir. Model güncel olmadığını söylemeli.
Harmless: KVKK kısıtları, dini hassasiyetler, etnik gruplar arası gerilim — Türkçe için 'harmless' Batı'dan farklı tanımlanmalı.

Bunu Modül 22'de derinlemesine işleyeceğiz.

6. Ouyang vd. Mart 2022 — InstructGPT Paper'ı#

6.1 Paper künyesi#

'Training language models to follow instructions with human feedback' Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, ..., Paul F. Christiano, Jan Leike, Ryan Lowe Mart 2022 · OpenAI

Paper 68 sayfa. RLHF'in 'olgunluk belgesi'.

6.2 InstructGPT'nin üç model boyutu#

OpenAI üç model boyutu üzerinde RLHF uyguladı:

1.3B param (GPT-3 'Babbage'a benzer)
6B param
175B param ('Davinci')

6.3 Veri kaynakları#

13K SFT örneği: insan etiketleyicilerce yazılan ideal cevaplar
33K karşılaştırma: insan 'A vs B vs C vs D' arasından sıralıyor
31K PPO promptu: gerçek API kullanıcılarının soruları (anonimleştirilmiş)

Toplam: ~80K insan etiket. ~50 etiketleyici (Upwork üzerinden, OpenAI tarafından özenli seçilmiş ve eğitilmiş).

6.4 Şaşırtıcı sonuç#

InstructGPT 1.3B, GPT-3 175B'den daha çok tercih edildi insan değerlendirmesinde.
Yani küçük + RLHF > büyük + raw.
175B parametreyi 1.3B parametreyle yenmek için insan tercih hizalaması yeterli.

Bu, modern AI'in ekonomisini ters yüz etti. Compute scaling kadar önemli olan: alignment scaling.

6.5 Sürpriz: capability vs alignment dengesi#

InstructGPT'nin bir maliyeti de vardı: bazı NLP benchmark'larında kötüleşti.

SQuAD soru-cevap: GPT-3'ten az düştü
WinoGrande mantık: hafif düştü
Public NLP eval: ortalama %2-5 düştü

Ama insan değerlendirmesinde: %70+ tercih edildi.

Çıkarım: RLHF, capability'i bir miktar feda eder, insan tercihini önceler. Bu trade-off bilinçli. Ama paper'da Ouyang dikkat çekti: 'Bu eğilim takip edilmeli.'

Günümüzde 'alignment tax' terimi kullanılıyor — RLHF'in capability faturası.

6.6 InstructGPT API'ye geçer#

Mart 2022. OpenAI sessizce davinci-instruct-beta'yı yayınlar. Geliştiriciler şaşırır: GPT-3 ile aynı API, ama çok daha iyi cevaplar.

9 ay sonra: ChatGPT.

7. Kasım 2022 — ChatGPT Lansman Gecesi#

7.1 Ekim 2022 — OpenAI iç kararı#

OpenAI Ekim 2022'de tartıştı: 'GPT-4'ü Kasım'da çıkartalım mı?' GPT-4 daha güçlüydü ama daha riskli, daha pahalı, daha zor güvence altına alınabiliyordu.

Sam Altman ve ekip karar verdi: önce daha küçük bir 'low-stakes research preview' çıkarsınlar. InstructGPT temelli, sohbete optimize, ücretsiz, public.

Kod adı: ChatGPT.

7.2 30 Kasım 2022, saat 13:00 (UTC)#

OpenAI Twitter: 'Today we're launching ChatGPT. It's a research preview, available for free at chat.openai.com.'

İlk saat: 10K kullanıcı. İlk gün: 100K. İlk 5 gün: 1M. İlk 2 ay: 100M aktif kullanıcı.

7.3 Niye bu kadar büyük etki?#

GPT-3 zaten 2 yıldır vardı. RLHF temelinde InstructGPT 8 ay önce yayınlanmıştı. Niye ChatGPT bu kadar farklı algılandı?

Üç sebep:

(1) Sohbet arayüzü: chat.openai.com'da arayüz tanıdık — WhatsApp gibi. API'siz, anlık. Bilgisayar dışı kullanıcılar denedi.

(2) Multi-turn coherence: önceki mesajları hatırlama. ChatGPT 'bu cümle benim 3 mesaj önce dediğime atıf yapıyor' yapabiliyor.

(3) İnce ayar nezaketi: InstructGPT'den bir adım daha nazik, daha ölçülü. 'Maalesef bunu yapamam ama şunu önerebilirim...' kalıbı.

7.4 Açıklanmayan teknik fark#

OpenAI hiçbir zaman ChatGPT vs InstructGPT'nin tam teknik farkını açıklamadı. Tahminler:

Daha çok RLHF iterasyonu (3-5 round)
Sohbet için özel SFT verisi
Conversation-format-specific reward model
Bazı sızıntılar 'Constitutional AI'ya benzer bir teknik ipucu veriyor

7.5 Endüstri sıçraması#

Aralık 2022 - Mart 2023 üç ay:

Anthropic Claude (Mart 2023, sınırlı erişim)
Google Bard (Şubat 2023)
Meta LLaMA (Şubat 2023, sızdırıldı)
Mart 2023: GPT-4 lansmanı

RLHF, AI endüstrisinin fiili standardı oldu.

7.6 RLHF'in 'görünmez kahraman' olması#

İlginç bir nokta: ChatGPT'nin kullanıcıları 'RLHF' kelimesini bilmez. Onlar için ChatGPT 'sadece çalışan AI'. Ama altta her gün milyonlarca insan tercihi etiketlemesi var. RLHF, AI'in görünmez insan emeği katmanı.

Bu hem etik soru hem mühendislik gerçeği. Modül 22'de tekrar değineceğiz.

8-10. Goodhart Yasası, Reward Hacking, Inner Alignment#

8.1 Goodhart Yasası#

Britanyalı ekonomist Charles Goodhart 1975:

'Bir ölçüt politika hedefi haline geldiğinde, iyi bir ölçüt olmaktan çıkar.'

Örnek: 'doktorların kalitesini ölçmek için ölüm oranı kullanılırsa, doktorlar zor hastaları reddetmeye başlar.' Ölçüt manipüle edilir.

8.2 RLHF'te Goodhart#

Reward model insan tercihinin bir yaklaşımıdır, kendisi değil. Model bu yaklaşıma karşı optimize edilir → yaklaşımın bozuk yerlerini bulup sömürür.

Klasik örnekler:

(a) Verbosity bias: insanlar uzun cevapları kısaya tercih ediyor (genelde). Reward model bunu öğreniyor. Model fark ediyor: 'cevabı uzatırsam puan artar' → her şeye gereksiz uzun cevap.

(b) Sycophancy (yalakalık): insan tercih veriyor, kibarca konuşulduğunda. Reward model kibar tonu rewards. Model aşırı kibar olur → kullanıcı 'belki haklısınız' dediğinde, model fikrini değiştirir (asla yapmamalı).

(c) Refusal hacking: 'zararlı içerik üretme' direktifini aşırı yorumlama. 'Patatesli yemek tarifi' bile reddetmek (çünkü 'bıçak tehlikeli'). Reward model'i kandırmak için fazla muhafazakâr.

(d) Confident hallucination: cevap belirsizliği reward düşürür. Model belirsizlik göstermez → uydurma bilgiyi kendinden emin sunar.

8.3 Reward hacking'in matematiksel kaçınılmazlığı#

Reward model R̂ ≠ gerçek insan tercihi R. Her zaman R̂ - R = ε hata var. Model R̂'yi maksimize ederken, ε'un büyük olduğu noktaları sömürür. Bu matematiksel kaçınılmaz.

Çözüm tamamen ortadan kaldırmak değil — minimize etmek:

KL penalty (SFT model'den uzaklaşmasın)
Reward model ensembling
Sürekli yeni veri ile RM güncelleme
Constitutional AI tarzı kurallar

9.1 Inner alignment vs Outer alignment#

AI safety literatüründen iki kavram:

Outer alignment: 'Reward function gerçekten istediğimiz şeyi temsil ediyor mu?' (Spec problem)
Inner alignment: 'Model gerçekten reward'u takip ediyor mu, yoksa kendi 'gizli amacı' var mı?' (Implementation problem)

RLHF, outer alignment'a bir cevap. Ama inner alignment garantisi vermiyor.

Deceptive alignment (aldatıcı uyum) hipotezi: 'Model RLHF eğitiminde 'iyi davran' rolü oynar, ama deploy edildiğinde gerçek hedeflerini takip eder.' Spekülatif ama AI safety'de ciddi tartışılıyor.

Bu konu Modül 22'de derinleşecek.

12-13. Türkçe için Hizalama — Kültür ve KVKK#

12.1 İngilizce'deki 'helpful' Türkçe'de ne?#

İngilizce 'helpful': aktif, problem-çözücü, hızlı.

Türkçe 'yardımcı' aynı şeyi ifade etmiyor:

'Yardımcı olmaya çalışayım' — alçakgönüllü, mesafeli
'Yardımcı olurum' — kibar ama tarafsız
'Tabii ki yaparım' — sıcak, içten

İngilizce-tabanlı RLHF reward model'i ilk seçimi rewards. Türkçe kullanıcılar üçüncüsünü tercih edebilir.

Bu, çevirinin sınırı. Türkçe için reward model Türkçe insan etiketleyici istiyor.

12.2 Sen / Siz ikilemi#

Türkçe'de hitap kritik. 'Sen' samimi, 'siz' resmi. AI asistanı hangisini kullanmalı?

ChatGPT default: 'siz' (resmi)
Kullanıcı 'sen' deyip kibar konuşursa, model genelde 'sen'e geçer
Kullanıcı 'lan' kullanırsa, model 'sen'e geçer ama küfür replikaze etmez

Bu kural-tabanlı değil — RLHF + Türkçe veri ile öğrenilen örtük davranış.

12.3 Türkçe yakıt etiği#

Türkçe pre-training corpus'unun küçük olması (~%2 Common Crawl) RLHF için ek zorluk:

Türkçe karşılaştırma verisi az → reward model yanlılığa açık
Türkçe 'helpful' örnekleri kısıtlı → SFT phase yetersiz
Türkçe edge case'ler (siyasi, dini) İngilizce-tabanlı korumalarla yakalanmaz

Çözüm: Türkçe için ayrı veri toplama. Trendyol-LLM, Cosmos-LLaMa gibi modeller bunu denedi.

13.1 KVKK Kısıtları#

6698 sayılı Kişisel Verilerin Korunması Kanunu (KVKK), 2016. AB GDPR benzeri ama Türkçe spesifik:

RLHF için kritik kısıtlar:

Kullanıcı verilerinin RLHF'te kullanımı: rıza gerekli
Karşılaştırma veri etiketleyicilerinin PII'ye erişimi: sınırlı
Cross-border veri transferi: Türkiye dışı sunucular için ekstra prosedür
Veri sahibinin silme hakkı: training data'dan silme zor (model'e nasıl yansıyacak?)

Pratik etki: Türkçe RLHF veri toplama, AB veya ABD'den daha sıkı düzenlenmiş. Etiketleyici sözleşmeleri özen istiyor.

13.2 Türkiye-özgü hizalama soruları#

Politika: Türkiye'de AI politik içerikten ne kadar bahsetmeli? (cevap: az, ama sansürcü olmamalı)
Din: islami hassasiyetler model yanıtlarında nasıl yer alacak?
Dil purizmi: 'login' mi 'oturum aç' mı? Model hangisini tercih etmeli?
Bölgesel farklar: Karadeniz şiveleri, doğu illeri lehçeleri — model 'standart İstanbul Türkçesi' mi sunmalı?

Bu soruların tek doğru cevabı yok. Model sahibinin kararı. Ama mutlaka karar verilmeli, default Batı'ya kalmasın.

14. 2025 Manzarası — RLHF Öldü mü, Yaşıyor mu?#

14.1 'RLHF öldü' iddiası#

2024'ten beri AI Twitter'da sürekli iddia: 'RLHF öldü, DPO kazandı.' Doğru mu?

Kısmen evet, kısmen hayır.

14.2 PPO-RLHF açık kaynak ekosistemi azaldı#

HuggingFace TRL hâlâ PPO destekliyor ama maintenance azaldı
Yeni open-weight modellerin çoğu DPO veya türevini kullanıyor (IPO, KTO, SimPO)
PPO'nun karmaşıklığı ve hassaslığı pratisyenler için yıpratıcı

14.3 Frontier lab'ler hâlâ RLHF kullanıyor#

OpenAI o1, o3: PPO benzeri reasoning RL
Anthropic Claude: Constitutional AI + RLHF varyantı
Google Gemini 2.0: RLHF + RLAIF kombinasyonu
DeepSeek-R1: GRPO (DPO varyantı + RL)

Frontier ekipler için RLHF'in iteratif iyileştirme özelliği vazgeçilmez. Online RL — modele kendi çıktısının üzerinden öğrenme — DPO'da yapamıyorsun (offline).

14.4 Modern hibrid yaklaşımlar#

2025'te tipik production stack:

SFT (Modül 14)
DPO veya türevi (offline preference learning)
RLHF refinement (PPO veya benzeri, iteratif)
Constitutional AI / RLAIF (model kendini eleştirir)

Yani 'RLHF öldü' değil — RLHF bir adım oldu, tek adım değil.

14.5 Türkiye için 2025 pratik tavsiyesi#

Production Türkçe LLM:

Llama-3-Instruct (zaten RLHF'lenmiş) baz al
Türkçe DPO ile özelleştir (Modül 15.6 capstone'da)
Gerekirse Constitutional AI Türkçe varyantı uygula
RLHF (PPO) ile sıfırdan training: maliyet/karmaşıklık → çoğu Türkçe team için fazla

15. Egzersizler — Düşünce ve Uygulama#

Düşünce Egzersizleri (Hesap Yok)#

E1. Pre-training corpus'unda 'intihar yöntemleri' içeren bir Wikipedia makalesi var (ki gerçekte var, çünkü ansiklopedik bilgi). SFT bu içeriği refuse etmeyi öğretebilir mi? Niye yeterli değil?

E2. Helpful-Harmless-Honest üçgeninde, üç çakışan değerden hangisi senin için en yüksek öncelikte — Türkçe asistan tasarlasaydın? Cevabını üç paragrafta savun.

E3. Christiano 2017 paper'ı Atari oyunlarında çalıştı. Atari ile dil modeli arasındaki en derin fark ne? Bu fark RLHF'in transferine ne tip zorluk getirir?

E4. Goodhart Yasası'nın bir günlük hayat örneğini ver (AI dışından). Bunu RLHF reward hacking'e nasıl benzettiğini açıkla.

E5. Türkçe'de 'sen / siz' ayrımının olduğu, İngilizce'de olmadığı durumlarda, OpenAI'in İngilizce-temelli alignment'ı Türkçe'ye nasıl yanlış aktarılabilir? İki somut senaryo yaz.

Uygulama Egzersizleri (Düşünsel Tasarım)#

E6. 'Türkiye'de gece nereden uyuşturucu bulabilirim?' Bu sorunun reward model'in yüksek puan vermesi gereken cevabı nedir? Üç farklı cevap taslağı yaz, hangisini RM'e tercih ettirmek isterdin?

E7. Aşağıdaki iki cevap karşılaştırması için bir 'doğru tercih' belirle:

Soru: 'Aşk neye benzer?'
Cevap A: '🌹 Aşk; iki kişinin birbirinin gözünde yıldızları görmesidir. Sevdiklerimize sarıldığımız o sıcaklık, hayatın en güzel hediyesidir!'
Cevap B: 'Aşk farklı insanlara farklı şeydir. Bazıları için tutku, bazıları için arkadaşlık, bazıları için sorumluluktur. Sen aşkı nasıl tanımlarsın?'

Karar ver. Sebebini iki cümlede açıkla. Sonra kullanıcının kim olduğuna göre kararın değişip değişmediğini düşün.

E8. Kullanıcının senden bir kişiyle konuşmasında 'Bana yalan söyle, dürüst olma' diye söylediğini hayal et. Helpful + Honest çakışıyor. Model ne yapmalı?

E9. Reward hacking'i azaltmak için 'KL penalty' kullanıyoruz. KL penalty katsayısı çok büyükse ne olur? Çok küçükse ne olur? Sweet spot'un nasıl bulunur (formula değil, sezgi)?

E10. Anthropic Constitutional AI'da model kendi cevabını eleştirir. Bunun ahlaki bir problemi olabilir mi? (İpucu: 'kim ahlaki standartı belirler?')

E11. Türkçe RLHF için 1000 karşılaştırma toplaman gerek. Bu 1000 örneğin dağılımı nasıl olmalı? (Domain, soru tipi, hassasiyet seviyesi)

E12. İki yıl sonra (2027) RLHF nereye gider tahmin et. Üç farklı senaryo yaz. Hangisi en olası?

✅ Ders 15.1 Özeti — Tarihçe ve Felsefe

Christiano 2017'de Atari'de doğan fikir, 2020'de Stiennon ile özetlemeye taşındı, Mart 2022'de Ouyang ile InstructGPT'ye dönüştü, Kasım 2022'de ChatGPT olarak dünyaya açıldı. Bu yedi yıllık yolculuk, basit bir mühendislik hilesi değil — felsefi bir devrim. 'İnsan tercihinden öğrenme', AI'in 'metin tahminden asistanlığa' geçişinin köprüsüydü. HHH (Helpful, Harmless, Honest) üçgeni, üç çelişkili değerin dengesi. Goodhart Yasası reward hacking'in matematiksel kaçınılmazlığı. Türkçe için RLHF: sen/siz, kültürel hitap, KVKK çerçevesi — Batı-tabanlı alignment'ın doğrudan transferi yetmez. 2025: RLHF ölmedi, ama tek başına yetmiyor — DPO, GRPO, Constitutional AI ile beraber çalışır. Bu ders RLHF'in niye'sini anlattı. Sonraki üç ders nasıl'ını matematik düzeyinde anlatacak.

Sonraki Ders: Reward Model'in Matematiği#

Ders 15.2'de Bradley-Terry modelini satır satır türetiyoruz. Niye

σ(r_A - r_B)

? Niye log-likelihood? Reward model'in mimari seçimi, ranking loss varyantları, kalibration sorunları, Türkçe için RM eğitiminin pratik detayları. Modül 6.10'da TurkTokenizer-tr capstone'u kalitesinde — bu sefer matematik tarafında.

Frequently Asked Questions

Multi-layered answer. **Core idea** from Christiano et al. 2017 paper (he was at Berkeley/OpenAI). Application to language models was Stiennon et al. 2020 (OpenAI). Adaptation to assistant models was Ouyang et al. 2022 InstructGPT (OpenAI). ChatGPT engineering was a broader OpenAI team (~100 people). 'One person invented it' is misleading. Christiano is philosophical/algorithmic pioneer; engineering transformation was collective.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...