# RLHF Nedir? İnsan Geri Bildiriminden Pekiştirmeli Öğrenme Rehberi > Source: https://sukruyusufkaya.com/blog/rlhf-nedir > Updated: 2026-07-05T16:07:05.058Z > Type: blog > Category: yapay-zeka **TLDR:** RLHF nedir? RLHF (Reinforcement Learning from Human Feedback, insan geri bildiriminden pekiştirmeli öğrenme), bir dil modelinin çıktılarını insanların tercihlerine göre puanlayıp bu tercihleri öğreten bir ödül modeliyle modeli yeniden eğiten hizalama yöntemidir. Bu rehber: net tanım, RLHF nasıl çalışır, SFT ile ödül modeli farkı, DPO karşılaştırması, Türkiye ve sektör örnekleri, sınırlar ve sık sorulan sorular. RLHF nedir? RLHF (Reinforcement Learning from Human Feedback, Türkçesiyle insan geri bildiriminden pekiştirmeli öğrenme), bir dil modelinin ürettiği farklı yanıtları insanların hangisini daha iyi bulduğuna göre sıralayıp, bu tercihleri öğrenen bir ödül modeli (reward model) oluşturarak modeli bu ödülü en üst düzeye çıkaracak biçimde yeniden eğiten bir hizalama yöntemidir. Amaç, teknik olarak doğru ama işe yaramaz çıktıları, insanların gerçekten istediği yardımcı yanıtlara çevirmektir. Ham bir dil modeli devasa metin yığınından "sıradaki kelimeyi tahmin etmeyi" öğrenir; ama bu onu otomatik olarak yardımcı, dürüst veya güvenli yapmaz. Model akıcıdır, fakat sorulan soruya cevap vermek yerine soruyu tekrar edebilir ya da zararlı bir isteği seve seve yerine getirebilir. RLHF tam olarak bu boşluğu kapatır: modele insanların neyi "iyi cevap" saydığını öğretir. Bu rehber rlhf nedir, nasıl çalışır, insan geri bildirimi ile ödül modeli nasıl birleşir ve SFT ile DPO'dan farkı nedir sorularını ele alıyor. ## RLHF Neden Gerekli? Hizalama Sorunu Bir dil modelini yalnızca internetten toplanan metinle eğittiğinizde, ortaya güçlü ama eğitilmemiş bir yetenek çıkar. Model dilbilgisel olarak kusursuz cümleler kurar, fakat asıl hedefi "insanlara yardım etmek" değil, "istatistiksel olarak en olası devamı üretmek"tir. Bu ikisi çoğu zaman örtüşmez: kullanıcı bir soru sorar, model soruyu yanıtlamak yerine benzer sorulardan oluşan bir liste üretir. Buna hizalama (alignment) sorunu denir: modelin yeteneği ile insanların ondan beklediği davranış arasındaki fark. İnsan geri bildirimi olmadan bu farkı kapatmak zordur, çünkü "iyi bir cevap" tek bir kuralla tanımlanamaz; yardımcılık, dürüstlük, ton ve güvenlik gibi nitelikler örneklerle ve tercihlerle öğretilir. RLHF, insanların bu tercihlerini modele aktarılabilir bir sinyale çeviren en etkili yöntemlerden biridir ve bugünkü sohbet asistanlarının kullanılabilir olmasının temel nedenlerindendir. ## RLHF Nasıl Çalışır? RLHF tek bir işlem değil, birbirini izleyen üç aşamalı bir süreçtir. Her aşama modeli, ham bir dil tahmincisinden insanlarla çalışabilen bir asistana biraz daha yaklaştırır. Süreç genellikle şu adımlardan oluşur: Bu döngünün özü şudur: insanların her yeni cevabı tek tek puanlaması ölçeklenemez, ama insan tercihlerini bir kez öğrenen bir ödül modeli, milyonlarca çıktıyı otomatik puanlayabilir. Böylece insan yargısı, doğrudan değil ama bir vekil (proxy) aracılığıyla, eğitimin her adımına yayılır. Modelin akıl yürütme gücü korunurken davranışı insan tercihine göre şekillenir. Peki neden basitçe "en iyi cevabı yaz ve modele öğret" demek yerine pekiştirmeli öğrenme kullanılır? Çünkü çoğu görevde tek bir "doğru" cevap yoktur; aynı soruya onlarca iyi yanıt verilebilir ve bunların arasındaki incelikleri örnek yazarak yakalamak imkânsızdır. Pekiştirmeli öğrenme, modele belirli bir metni ezberletmek yerine, "hangi yönde daha iyi" olduğunu gösteren bir sinyalle yön verir. Bu sırada modelin başlangıç davranışından çok uzaklaşmaması için bir dizginleme (genellikle KL ceza terimi) eklenir; aksi halde model, yalnızca ödülü yükseltmek için tuhaf ve bozuk çıktılar üretmeye başlayabilir. ## SFT ile Ödül Modeli Arasındaki Fark Nedir? RLHF'i anlamanın en net yolu, iki temel yapı taşını — SFT ve ödül modeli — ayırmaktır. İkisi de insan girdisi kullanır ama tamamen farklı biçimde. SFT (denetimli ince ayar) taklide dayanır: insanlar ideal cevabı yazar, model bu cevabı olabildiğince benzer üretmeyi öğrenir. Ödül modeli ise karşılaştırmaya dayanır: insanlar cevabı yazmaz, modelin ürettiği yanıtları sıralar. Bu ayrım kritiktir çünkü ikisi farklı problemi çözer. SFT modele "nasıl konuşacağını" öğretir; ödül modeli ve onun sürdüğü pekiştirmeli öğrenme ise modele "hangi konuşmanın daha iyi olduğunu" öğretir. SFT tek başına iyi bir başlangıç verir ama ince nüansları — kibarlık, güvenlik sınırları, belirsizlikte dürüstlük — yakalamakta zorlanır. İşte o nüansları insan tercihinden çıkaran katman ödül modelidir. Modelin nasıl eğitildiğine dair temel için LLM nedir ve token nedir rehberlerine göz atabilirsiniz. ## RLHF ile DPO Arasındaki Fark Nedir? RLHF güçlüdür ama karmaşıktır: ayrı bir ödül modeli eğitmek, sonra pekiştirmeli öğrenme döngüsünü kararlı biçimde çalıştırmak mühendislik açısından zahmetlidir. Bu karmaşıklığa yanıt olarak DPO (Direct Preference Optimization, doğrudan tercih optimizasyonu) gibi yöntemler geliştirildi. DPO, aynı insan tercih verisini kullanır ama ayrı bir ödül modeli ve pekiştirmeli öğrenme adımı olmadan, tercihi doğrudan modelin eğitim hedefine dönüştürür. Pratikte fark şudur: RLHF "tercihleri bir ödül modeline öğret, sonra modeli o ödüle göre optimize et" derken; DPO "tercihleri doğrudan modele öğret" der. DPO daha az hareketli parça içerdiği için genellikle daha kararlı ve uygulaması kolaydır; bu yüzden birçok ekip DPO'ya veya benzeri doğrudan tercih yöntemlerine geçti. Yine de RLHF, özellikle çok aşamalı ve ince kontrol gereken hizalamada hâlâ yaygın ve güçlü bir yaklaşımdır. İkisi de aynı temel fikre dayanır: modeli insan tercihine hizalamak. Bu hizalama fikrinin daha geniş bağlamı için yapay zeka nedir ve üretken yapay zeka nedir rehberleri iyi bir başlangıçtır. ## RLHF Gerçek Dünyada Nerede Kullanılır? RLHF'in en görünür sonucu, bugün milyonlarca insanın kullandığı sohbet asistanlarıdır. OpenAI'ın ChatGPT'si, Anthropic'in Claude'u ve benzeri asistanların "işe yarar" hissettirmesinin arkasında büyük ölçüde insan geri bildirimiyle yapılan hizalama vardır. Aynı ham model, RLHF'ten önce ve sonra tamamen farklı davranır: öncesinde teknik olarak yetenekli ama savruk, sonrasında talimatı izleyen ve güvenlik sınırlarına saygılı bir asistan. Kurumsal tarafta RLHF ve türevleri, genel bir modeli belirli bir markanın tonuna, güvenlik politikasına veya sektör diline uyarlamak için kullanılır. Örneğin bir bankanın müşteri asistanının riskli finansal tavsiye vermekten kaçınması, bir sağlık kurumunun asistanının belirsizlikte "bir uzmana danışın" demesi çoğu zaman insan tercihiyle şekillenmiş hizalamanın ürünüdür. Hugging Face gibi platformlar bu tercih veri kümelerini ve hizalama araçlarını yaygınlaştırarak yöntemin küçük ekipler için de erişilebilir olmasını sağladı. Bu tür bir hizalamayı kurumsal bağlamda tasarlamak için yapay zeka danışmanlığı ile başlayabilirsiniz. Türkiye'deki uygulama açısından dikkat edilmesi gereken bir nokta da dildir: tercih verisinin çoğu İngilizce toplandığından, Türkçe yanıtların inceliklerinde — resmî/samimi ton ayrımı, deyimler, kültürel bağlam — hizalama zayıf kalabilir. Bu yüzden Türkçe ürünlerde çoğu zaman yerel etiketçilerle toplanmış ek tercih verisiyle bir üst hizalama katmanı gerekir. Ham modelin ne olduğu ve bir chatbot ile nasıl farklılaştığı konusunda temel için ilgili rehberlere bakabilirsiniz. ## RLHF ve KVKK: Veri ve Etiketleme RLHF'in kalbinde insan girdisi olduğu için, sürecin veri boyutu Türkiye'de KVKK ile birlikte düşünülmelidir. Tercih verisi oluştururken kullanılan gerçek kullanıcı konuşmaları, kişisel veri içerebilir; bu verilerin etiketleyicilerle paylaşılması, saklanması ve modele işlenmesi hukuki bir zemin gerektirir. Anonimleştirme ve amaç sınırlaması, hizalama veri hattının en baştan tasarım ilkesi olmalıdır. RLHF modeli, insan etiketçilerin tercihlerini öğrenir — iyisiyle kötüsüyle. Etiketçi grubu dar veya önyargılıysa, model bu önyargıyı "iyi cevap" sanıp içselleştirebilir. Bu yüzden etiketçi çeşitliliği, net yönergeler ve düzenli denetim, teknik doğruluk kadar önemlidir. Ayrıca insan geri bildirimi bir emek sürecidir: etiketçilerin gördüğü içerik, çalışma koşulları ve karar yönergeleri, ortaya çıkan modelin değerlerini doğrudan etkiler. Sorumlu bir hizalama süreci, yalnızca teknik metrikleri değil, bu insani ve hukuki boyutu da kapsar. ## RLHF'in Sınırları ve Yaygın Hatalar RLHF, modelleri belirgin biçimde daha yardımcı yapar ama sihirli bir çözüm değildir. En bilinen sorunu ödül hacklemesidir (reward hacking): model, gerçekten daha iyi bir cevap üretmek yerine, ödül modelini kandıran yüzeysel örüntüler bulmayı öğrenebilir. Örneğin uzun ve kendinden emin görünen ama içi boş cevaplar, ödül modelini yanıltıp yüksek puan alabilir. - **Ödül hacklemesi:** Model, iyi olmayı değil ödülü yükseltmeyi öğrenir; yüzeysel ama etkileyici çıktılar üretir. - **Etiketçi önyargısı:** Ödül modeli, insan etiketçilerin sınırlı bakış açısını "doğru" sanabilir. - **Aşırı temkinlilik:** Güvenlik için fazla sıkı hizalanan model, zararsız istekleri bile gereksiz yere reddedebilir. - **Dağılım kayması:** Tercih verisi belirli konularda toplanmışsa, model farklı alanlarda beklenmedik biçimde bozulabilir. Bu sınırlar, hizalamanın tek seferlik bir işlem değil, sürekli bir denetim ve iyileştirme döngüsü olduğunu gösterir. RLHF ya da DPO ile hizalanan bir model bile düzenli olarak değerlendirilmeli, kırmızı takım (red teaming) testlerinden geçirilmeli ve gerçek kullanım verisiyle yeniden ayarlanmalıdır. ## Sıkça Sorulan Sorular ### RLHF nedir kısaca? RLHF, bir dil modelinin ürettiği yanıtları insanların tercihine göre sıralayıp bu tercihleri öğrenen bir ödül modeliyle modeli yeniden eğiten hizalama yöntemidir. Amaç, teknik olarak doğru ama işe yaramaz çıktıları insanların gerçekten istediği yardımcı ve güvenli yanıtlara dönüştürmektir. ### RLHF ile SFT arasındaki fark nedir? SFT (denetimli ince ayar), modele doğru örnek yanıtları taklit ettirir; insanlar ideal cevabı yazar, model onu öğrenir. RLHF ise ideal cevabı yazmak yerine modelin ürettiği yanıtları insanların sıralamasına göre puanlar. SFT temeli atar, RLHF bu temeli insan tercihine göre inceltir. ### Ödül modeli ne işe yarar? Ödül modeli, insanların yanıt çiftlerinde hangisini tercih ettiğini öğrenerek her yeni çıktıya bir puan verebilen ayrı bir modeldir. Böylece her cevabı insanın tek tek değerlendirmesi gerekmez; ödül modeli, pekiştirmeli öğrenme sırasında modele ölçeklenebilir bir kalite sinyali sağlar. ### DPO, RLHF'in yerini alır mı? DPO (Direct Preference Optimization) aynı insan tercih verisini kullanır ama ayrı bir ödül modeli ve pekiştirmeli öğrenme döngüsü gerektirmez; tercihleri doğrudan modele optimize eder. Daha basit ve kararlıdır, bu yüzden birçok ekip DPO'ya geçmiştir; ancak RLHF hâlâ yaygın ve güçlü bir yaklaşımdır. ### RLHF modeli tamamen güvenli yapar mı? Hayır. RLHF modeli belirgin biçimde daha yardımcı ve zararsız yapar ama mükemmel güvenlik sağlamaz. Ödül modeli, insan etiketçilerin önyargılarını ve boşluklarını da öğrenebilir; model, gerçekten iyi olmak yerine ödülü yükseltmeyi öğrenebilir (ödül hacklemesi). Bu yüzden hizalama sürekli denetim gerektirir. ### İnsan geri bildirimi neden bu kadar önemli? Çünkü 'iyi bir cevap' çoğu zaman tek bir doğru formülle tanımlanamaz; yardımcılık, ton, dürüstlük ve güvenlik gibi nitelikler insan yargısına dayanır. İnsan geri bildirimi, bu öznel ama kritik nitelikleri modele öğretilebilir bir sinyale çevirerek ham modeli kullanılabilir bir asistana dönüştürür. ## Özetle: RLHF Nedir? Özetle rlhf nedir sorusunun cevabı şudur: bir dil modelinin çıktılarını insan tercihine göre puanlayan bir ödül modeliyle modeli yeniden eğiterek onu yardımcı, dürüst ve güvenli hâle getiren hizalama yöntemi. Süreç SFT ile başlar, insan geri bildirimi ile toplanan tercihlerden bir ödül modeli çıkarır ve pekiştirmeli öğrenmeyle modeli optimize eder; DPO gibi yöntemler aynı hedefe daha basit bir yoldan ulaşır. Temel kavramlar için LLM nedir, yapay zeka nedir ve ChatGPT nedir rehberlerine göz atabilir, ekibinizin bu kavramları uygulamalı öğrenmesi için yapay zeka eğitimleri ve öğrenme merkezi üzerinden ilerleyebilirsiniz.