# Pekiştirmeli Öğrenme Nedir? Ödül, Ajan ve Çevre Rehberi > Source: https://sukruyusufkaya.com/blog/pekistirmeli-ogrenme-nedir > Updated: 2026-07-05T16:10:48.592Z > Type: blog > Category: yapay-zeka **TLDR:** Pekiştirmeli öğrenme nedir? Pekiştirmeli öğrenme (reinforcement learning), bir ajanın bir çevre içinde deneme-yanılma yoluyla, aldığı ödül ve cezalara göre en iyi davranışı öğrendiği makine öğrenmesi yaklaşımıdır. Bu rehber: net tanım, ajan ve çevre, ödül fonksiyonu, nasıl çalışır, Q-learning, derin pekiştirmeli öğrenme, RLHF, gerçek dünya örnekleri, denetimli öğrenmeyle farkı, sınırlar ve sık sorulan sorular. Pekiştirmeli öğrenme nedir? Pekiştirmeli öğrenme (reinforcement learning, Türkçesiyle takviyeli öğrenme), bir ajanın bir çevre içinde deneme-yanılma yoluyla, her eyleminin ardından aldığı ödül veya cezaya bakarak en iyi davranışı öğrendiği bir makine öğrenmesi yaklaşımıdır. Ajan hangi eylemin doğru olduğunu kimseden öğrenmez; sadece sonuçlara bakarak, zamanla toplam ödülü en yükseğe çıkaran stratejiyi kendisi keşfeder. Bir çocuğun bisiklete binmeyi öğrenmesini düşünün: kimse ona her an "şimdi şu kadar sağa yaslan" demez; çocuk denerken düşer (ceza), dengede kalınca ilerler (ödül) ve zamanla ne yapması gerektiğini çıkarır. Pekiştirmeli öğrenme tam olarak bu mantığı makinelere taşır. Bu rehber pekiştirmeli öğrenme nedir, ajan ve çevre ilişkisi nasıl kurulur, ödül fonksiyonu neden bu kadar kritiktir, Q-learning ve RLHF gibi yöntemler ne işe yarar sorularını yanıtlıyor. ## Pekiştirmeli Öğrenme Nedir ve Diğer Yaklaşımlardan Farkı Nedir? Makine öğrenmesi üç ana paradigmaya ayrılır ve pekiştirmeli öğrenmeyi anlamanın en net yolu onu diğer ikisiyle karşılaştırmaktır. Denetimli öğrenmede (supervised learning) her örneğin doğru cevabı bir etiket olarak verilir; model bu etiketleri taklit etmeyi öğrenir. Denetimsiz öğrenmede (unsupervised learning) etiket yoktur; model verideki gizli yapıyı, örüntüleri kendisi bulur. Pekiştirmeli öğrenme ise üçüncü ve farklı bir yoldur: burada ne baştan verilmiş doğru cevaplar ne de yalnızca örüntü keşfi vardır. Bunun yerine bir ajan çevrede eylemler yapar ve her eylemin ardından bir ödül sinyali alır. Ajan, hangi eylemin "iyi" olduğunu kimsenin söylemesiyle değil, sonuçlara bakarak öğrenir. Bu yüzden pekiştirmeli öğrenme nedir sorusunun özü şudur: etiketten değil, deneyimden ve sonuçtan öğrenme. Makine öğrenmesinin bu üç kolunun tümü için derin öğrenme nedir rehberi iyi bir temel sunar. ## Ajan ve Çevre: Pekiştirmeli Öğrenmenin Temel Kurgusu Her pekiştirmeli öğrenme problemi, iki taraf arasındaki bir döngü olarak kurgulanır: ajan ve çevre. Ajan, kararları veren ve öğrenen taraftır — bir robot, bir oyun oyuncusu ya da bir öneri motoru olabilir. Çevre ise ajanın içinde hareket ettiği dünyadır; ajanın eylemlerine tepki verir ve ona yeni durumlar sunar. Bu ajan ve çevre ilişkisi sürekli bir döngü hâlinde işler. Ajan çevrenin o anki durumunu (state) gözlemler, bir eylem (action) seçer; çevre bu eyleme yeni bir durum ve bir ödül ile karşılık verir. Ajan bu ödülü kullanarak stratejisini günceller ve döngü baştan başlar. İşte pekiştirmeli öğrenmenin dört temel bileşeni budur: durum, eylem, ödül ve bunları bir araya getiren ajan ve çevre döngüsü. Bu yapı, aynı zamanda modern yapay zeka ajanlarının da düşünsel temelini oluşturur. ## Ödül Fonksiyonu Nedir ve Neden Bu Kadar Kritiktir? Pekiştirmeli öğrenmenin kalbinde ödül fonksiyonu vardır. Ödül fonksiyonu, ajanın yaptığı her eylemin ne kadar iyi olduğunu sayısal bir puanla ölçen kuraldır. Bir oyunda skoru artırmak pozitif ödül, bir robotun düşmesi negatif ödül olabilir. Ajanın tek amacı, uzun vadede topladığı toplam ödülü en yükseğe çıkarmaktır. Buradaki incelik, ödülün genellikle gecikmeli olmasıdır: bir satranç hamlesinin iyi mi kötü mü olduğu ancak oyunun sonunda belli olur. Bu yüzden ajan yalnızca anlık ödülü değil, gelecekteki ödülleri de hesaba katmayı öğrenmek zorundadır. Ödül fonksiyonu tasarımı bu nedenle pekiştirmeli öğrenmenin en kritik ve en zorlu kısmıdır; çünkü ajanın öğreneceği her şeyi bu fonksiyon yönlendirir. Kötü tasarlanmış bir ödül fonksiyonu tehlikelidir: ajan, sizin istediğiniz davranışı değil, ödülü en kolay artıran davranışı bulur. Klasik bir örnekte, bir tekne yarışı oyununda puan toplamayı öğrenen ajan, yarışı bitirmek yerine sonsuz döngüde puan halkalarını toplamayı keşfeder. Ajan "hile" yapmıyordur — sadece ona verdiğiniz ödül fonksiyonunu tam olarak optimize ediyordur. Bu yüzden ödül tasarımı hem teknik hem etik bir sorumluluktur. ## Pekiştirmeli Öğrenme Nasıl Çalışır? Pekiştirmeli öğrenme, ajanın çevreyle etkileşimini tekrarlayan bir döngü olarak yürütür ve her turda politikasını (policy) biraz daha iyileştirir. Politika, ajanın "hangi durumda hangi eylemi yapayım?" sorusuna verdiği yanıttır — yani öğrenilen davranış stratejisidir. Bu döngünün en ilginç yanı keşif-sömürü ikilemidir (exploration-exploitation). Ajan her zaman bildiği en iyi eylemi yaparsa (sömürü), belki daha iyi bir stratejiyi hiç keşfedemez; hep yeni şeyler denerse (keşif), bildiği iyi ödülleri kaçırır. İyi bir pekiştirmeli öğrenme algoritması bu ikisini akıllıca dengeler — tıpkı yeni bir restoran denemekle sevdiğiniz restorana gitmek arasında karar veren bir insan gibi. ## Q-learning ve Derin Pekiştirmeli Öğrenme Klasik pekiştirmeli öğrenmenin en bilinen algoritması q-learning'dir. Q-learning'de ajan, her durum-eylem çifti için beklenen uzun vadeli ödülü temsil eden bir "Q değeri" öğrenir. Ajan her durumda en yüksek Q değerine sahip eylemi seçtiğinde, zamanla optimal politikaya ulaşır. Küçük ve sayılabilir durum uzaylarında q-learning basit ve etkilidir. Ancak gerçek dünya problemleri — bir video oyununun ekran görüntüsü ya da bir robotun kamera görüntüsü — o kadar çok olası duruma sahiptir ki her birini bir tabloda tutmak imkânsızdır. İşte burada derin öğrenme devreye girer: Q değerlerini bir tablo yerine bir sinir ağı tahmin eder. Bu birleşime derin pekiştirmeli öğrenme (deep reinforcement learning) denir ve alanda çığır açan sonuçların çoğu bu yaklaşımdan gelmiştir. Sinir ağlarının bu rolünü derin öğrenme nedir ve temel kavramlar için algoritma nedir rehberlerinde bulabilirsiniz. ## Pekiştirmeli Öğrenmenin Türleri ve Ana Yaklaşımları Pekiştirmeli öğrenme tek bir algoritma değil, ortak bir çerçeveyi paylaşan bir yöntemler ailesidir. Bu yöntemleri birbirinden ayıran en önemli iki eksen vardır ve bunları bilmek, hangi problemde neyin uygun olduğunu anlamayı kolaylaştırır. Birinci eksen, ajanın neyi öğrendiğidir. Değer-temelli (value-based) yöntemler — q-learning gibi — her durum ya da eylem için beklenen ödülü tahmin etmeyi öğrenir; ajan bu tahminlere bakarak eylem seçer. Politika-temelli (policy-based) yöntemler ise doğrudan politikayı, yani "hangi durumda hangi eylem" eşlemesini öğrenir. İkisini birleştiren aktör-eleştirmen (actor-critic) yaklaşımları, hem bir eylem üreten (aktör) hem de bu eylemi değerlendiren (eleştirmen) iki bileşeni birlikte çalıştırır ve modern derin pekiştirmeli öğrenmenin çoğu bu tasarıma dayanır. İkinci eksen, ajanın çevrenin bir modelini kurup kurmadığıdır. Modelsiz (model-free) yöntemlerde ajan çevrenin nasıl işlediğini bilmez; yalnızca deneyerek öğrenir. Model-tabanlı (model-based) yöntemlerde ise ajan çevrenin bir modelini öğrenir ve eylemlerinin sonucunu zihninde "simüle ederek" planlama yapabilir; bu, örnek verimliliğini artırabilir ama modeli kurmak zordur. Doğru yaklaşımı seçmek, problemin yapısına, veri maliyetine ve gereken güvenlik düzeyine bağlıdır. ## Denetimli Öğrenme ile Pekiştirmeli Öğrenme Farkı İki yaklaşım sık karıştırıldığı için farkı net bir tabloyla ortaya koymak yararlıdır. Temel ayrım, öğrenme sinyalinin nereden geldiğidir: denetimli öğrenmede önceden hazırlanmış doğru cevaplardan, pekiştirmeli öğrenmede ise ajanın kendi eylemlerinin sonuçlarından. Bu farkın pratik sonucu şudur: bir problemde "doğru cevabı" önceden yazabiliyorsanız denetimli öğrenme genellikle daha kolay ve verimlidir. Ama problem, sırayla verilen kararlardan ve gecikmeli sonuçlardan oluşuyorsa — satranç, robot yürüyüşü, portföy yönetimi gibi — pekiştirmeli öğrenme doğal seçimdir. Bu ailelerin nasıl birbirine bağlandığını yapay zeka nedir rehberinde bütüncül olarak ele alıyoruz. ## Gerçek Dünya ve Sektör Örnekleri Pekiştirmeli öğrenme laboratuvar merakı değil; bugün üretimde değer üreten bir yaklaşımdır. En görünür örnekler oyun alanından gelir: DeepMind'ın AlphaGo sistemi, pekiştirmeli öğrenme ve kendisiyle oynama (self-play) sayesinde dünyanın en iyi Go oyuncularını yendi. Aynı prensip Atari oyunlarından modern strateji oyunlarına kadar geniş bir alanda insanüstü performans üretti. Oyunun ötesinde etki daha da somuttur. Robotikte bir kolun nesne kavramayı ya da bir robotun yürümeyi öğrenmesi pekiştirmeli öğrenmeyle yapılır. Öneri sistemleri, dijital reklam açık artırmaları ve dinamik fiyatlandırma, uzun vadeli kullanıcı davranışını optimize etmek için bu yaklaşımı kullanır. Google, veri merkezi soğutmasını optimize ederek enerji tüketimini düşürmek için pekiştirmeli öğrenme uyguladığını duyurmuştur. Bu senaryoların ortak paydası, kararların sırayla verildiği ve asıl önemli olanın anlık değil uzun vadeli sonuç olduğu problemlerdir. Bu tür kurumsal fırsatları değerlendirmek için yapay zeka danışmanlığı iyi bir başlangıç noktasıdır. ## RLHF: Büyük Dil Modellerini İnsan Tercihlerine Hizalamak Son yıllarda pekiştirmeli öğrenmeyi ana akıma taşıyan uygulama rlhf oldu: insan geri bildiriminden pekiştirmeli öğrenme (reinforcement learning from human feedback). RLHF, bir dil modelinin ürettiği farklı yanıtları insanların tercih sırasına göre puanlar; bu insan tercihlerinden bir ödül modeli öğrenilir ve dil modeli, bu ödülü en yükseğe çıkaracak yanıtları üretmeye doğru ince ayarlanır. Bunun neden önemli olduğunu görmek zor değil: bir dil modeli sadece "bir sonraki kelimeyi tahmin etmeyi" öğrendiğinde teknik olarak akıcı ama yardımsever, dürüst veya güvenli olması garanti değildir. RLHF, modeli insanların gerçekten tercih ettiği yanıtlara hizalar. OpenAI'nin ChatGPT'si, Anthropic ve Google gibi kuruluşların modelleri bu tekniğin en bilinen ürünleridir. Böylece pekiştirmeli öğrenme, oyun tahtasından çıkıp bugün milyonların kullandığı ChatGPT ve genel olarak büyük dil modellerinin merkezine yerleşti. ## Pekiştirmeli Öğrenmenin Sınırları ve Yaygın Hatalar Pekiştirmeli öğrenme güçlüdür ama her probleme uygun değildir; başarısı büyük ölçüde problemin doğru kurgulanmasına bağlıdır. En yaygın sınırlar ve hatalar şunlardır: - **Örnek verimsizliği:** Ajan iyi bir politika öğrenmek için çoğu zaman milyonlarca deneme yapmak zorundadır; bu, gerçek dünyada (örneğin fiziksel bir robotta) pahalı ve riskli olabilir. Bu yüzden eğitim çoğunlukla simülasyonda yapılır. - **Ödül tasarımı hataları:** Kötü tanımlanmış bir ödül fonksiyonu, ajanı istenmeyen ama yüksek puanlı davranışlara (ödül hilesi) iter. Ödülü doğru tanımlamak çoğu zaman algoritmadan daha zordur. - **Keşif-sömürü dengesizliği:** Yetersiz keşif, ajanı yerel bir çözüme hapseder; aşırı keşif ise öğrenmeyi yavaşlatır ve kararsız hâle getirir. - **Simülasyondan gerçeğe geçiş (sim-to-real):** Simülasyonda mükemmel öğrenen bir ajan, gerçek dünyanın öngörülemeyen ayrıntıları karşısında başarısız olabilir. Bu sınırlar pekiştirmeli öğrenmeyi değersiz kılmaz; yalnızca onu ne zaman ve nasıl kullanacağını doğru seçmenin önemini gösterir. Doğru problemde uygulandığında, başka hiçbir yaklaşımın ulaşamadığı sonuçları üretebilir. ## Sıkça Sorulan Sorular ### Pekiştirmeli öğrenme ile denetimli öğrenme arasındaki fark nedir? Denetimli öğrenmede her örneğin doğru cevabı etiket olarak verilir; model bu etiketleri taklit eder. Pekiştirmeli öğrenmede ise doğru cevap yoktur, yalnızca ödül sinyali vardır; ajan hangi eylemin iyi olduğunu deneme-yanılmayla, sonuçlara bakarak kendi keşfeder. ### Ödül fonksiyonu nedir ve neden bu kadar önemli? Ödül fonksiyonu, ajanın her eyleminin ne kadar iyi olduğunu sayısal bir puanla ölçen kuraldır. Öğrenmenin tüm yönünü belirler: yanlış tasarlanmış bir ödül fonksiyonu, ajanı istenmeyen ama yüksek puanlı davranışlara iter (ödül hilesi). Bu yüzden ödül tasarımı pekiştirmeli öğrenmenin en kritik kısmıdır. ### RLHF nedir ve ChatGPT ile ilişkisi nedir? RLHF (insan geri bildiriminden pekiştirmeli öğrenme), bir dil modelinin ürettiği yanıtları insanların tercihlerine göre puanlayıp modeli bu tercihlere hizalayan yöntemdir. ChatGPT gibi modellerin yardımsever ve güvenli yanıtlar vermesinde RLHF merkezî rol oynar. ### Q-learning nedir? Q-learning, ajanın her durum-eylem çifti için beklenen uzun vadeli ödülü (Q değeri) tahmin etmeyi öğrendiği klasik bir pekiştirmeli öğrenme algoritmasıdır. Ajan, her durumda en yüksek Q değerine sahip eylemi seçerek zamanla optimal politikayı öğrenir. ### Pekiştirmeli öğrenme hangi gerçek problemlerde kullanılır? Robotik kontrol, oyun oynama, öneri sistemleri, reklam ve fiyatlandırma, enerji/veri merkezi optimizasyonu ve büyük dil modeli hizalaması (RLHF) başlıca alanlardır. Ortak nokta, kararların sırayla verildiği ve uzun vadeli sonucun önemli olduğu problemlerdir. ### Pekiştirmeli öğrenmenin en büyük zorluğu nedir? En büyük zorluklardan biri örnek verimsizliğidir: ajan iyi bir politika öğrenmek için çok sayıda deneme yapmak zorundadır, bu da gerçek dünyada pahalı veya riskli olabilir. Ayrıca keşif-sömürü dengesi ve ödül tasarımı da temel zorluklardır. ## Özetle: Pekiştirmeli Öğrenme Nedir? Özetle pekiştirmeli öğrenme nedir sorusunun cevabı şudur: bir ajanın bir çevre içinde deneme-yanılma ve ödül/ceza yoluyla, uzun vadeli toplam ödülü en yükseğe çıkaran davranışı öğrendiği makine öğrenmesi yaklaşımı. Ajan ve çevre döngüsü, ödül fonksiyonu ve keşif-sömürü dengesi bu yaklaşımın kalbinde yer alır; q-learning ve derin pekiştirmeli öğrenme onu ölçeklenebilir kılar; rlhf ise onu bugünün büyük dil modellerinin merkezine taşır. Temel için yapay zeka nedir ve derin öğrenme nedir rehberlerine göz atabilir, kurumunuzda somut bir uygulama için yapay zeka danışmanlığı veya ekip eğitimi için yapay zeka eğitimleri ile başlayabilirsiniz.