# Pekiştirmeli Öğrenme Nedir? Ödül, Ajan ve Çevre Rehberi

> Source: https://sukruyusufkaya.com/blog/pekistirmeli-ogrenme-nedir
> Updated: 2026-07-05T16:10:48.592Z
> Type: blog
> Category: yapay-zeka
**TLDR:** Pekiştirmeli öğrenme nedir? Pekiştirmeli öğrenme (reinforcement learning), bir ajanın bir çevre içinde deneme-yanılma yoluyla, aldığı ödül ve cezalara göre en iyi davranışı öğrendiği makine öğrenmesi yaklaşımıdır. Bu rehber: net tanım, ajan ve çevre, ödül fonksiyonu, nasıl çalışır, Q-learning, derin pekiştirmeli öğrenme, RLHF, gerçek dünya örnekleri, denetimli öğrenmeyle farkı, sınırlar ve sık sorulan sorular.

<tldr data-summary="[&quot;Pekiştirmeli öğrenme, bir ajanın bir çevre içinde deneme-yanılma ve ödül/ceza yoluyla en iyi davranışı öğrendiği makine öğrenmesi yaklaşımıdır.&quot;,&quot;Dört temel bileşen: ajan ve çevre, durum, eylem ve ödül fonksiyonu; hedef uzun vadeli toplam ödülü en yükseğe çıkarmaktır.&quot;,&quot;Denetimli öğrenmeden farkı, doğru cevabın etiket olarak verilmemesidir; ajan iyi eylemi sonuçtan çıkarır.&quot;,&quot;Q-learning ve derin öğrenmenin birleşimi (derin pekiştirmeli öğrenme) oyun ve robotikte insanüstü sonuç verdi.&quot;,&quot;RLHF, ChatGPT gibi büyük dil modellerini insan tercihlerine hizalamada merkezî rol oynar.&quot;]" data-one-line="Pekiştirmeli öğrenme nedir sorusunun kısa cevabı: bir ajanın çevre içinde ödül ve ceza yoluyla, deneme-yanılmayla en iyi davranışı öğrendiği makine öğrenmesi yaklaşımı."></tldr>

Pekiştirmeli öğrenme nedir? Pekiştirmeli öğrenme (reinforcement learning, Türkçesiyle takviyeli öğrenme), bir ajanın bir çevre içinde deneme-yanılma yoluyla, her eyleminin ardından aldığı ödül veya cezaya bakarak en iyi davranışı öğrendiği bir makine öğrenmesi yaklaşımıdır. Ajan hangi eylemin doğru olduğunu kimseden öğrenmez; sadece sonuçlara bakarak, zamanla toplam ödülü en yükseğe çıkaran stratejiyi kendisi keşfeder.

Bir çocuğun bisiklete binmeyi öğrenmesini düşünün: kimse ona her an "şimdi şu kadar sağa yaslan" demez; çocuk denerken düşer (ceza), dengede kalınca ilerler (ödül) ve zamanla ne yapması gerektiğini çıkarır. Pekiştirmeli öğrenme tam olarak bu mantığı makinelere taşır. Bu rehber pekiştirmeli öğrenme nedir, ajan ve çevre ilişkisi nasıl kurulur, ödül fonksiyonu neden bu kadar kritiktir, Q-learning ve RLHF gibi yöntemler ne işe yarar sorularını yanıtlıyor.

<definition-box data-term="Pekiştirmeli Öğrenme (Reinforcement Learning)" data-definition="Bir ajanın bir çevre içinde deneme-yanılma yoluyla, her eyleminin ardından aldığı ödül veya cezaya bakarak zamanla toplam ödülü en yükseğe çıkaran davranış stratejisini (politika) öğrendiği makine öğrenmesi yaklaşımı. Etiketli veriyle değil, eylemlerin sonuçlarıyla öğrenir." data-also="Reinforcement learning, RL, takviyeli öğrenme, ödül temelli öğrenme"></definition-box>

## Pekiştirmeli Öğrenme Nedir ve Diğer Yaklaşımlardan Farkı Nedir?

Makine öğrenmesi üç ana paradigmaya ayrılır ve pekiştirmeli öğrenmeyi anlamanın en net yolu onu diğer ikisiyle karşılaştırmaktır. Denetimli öğrenmede (supervised learning) her örneğin doğru cevabı bir etiket olarak verilir; model bu etiketleri taklit etmeyi öğrenir. Denetimsiz öğrenmede (unsupervised learning) etiket yoktur; model verideki gizli yapıyı, örüntüleri kendisi bulur.

Pekiştirmeli öğrenme ise üçüncü ve farklı bir yoldur: burada ne baştan verilmiş doğru cevaplar ne de yalnızca örüntü keşfi vardır. Bunun yerine bir ajan çevrede eylemler yapar ve her eylemin ardından bir ödül sinyali alır. Ajan, hangi eylemin "iyi" olduğunu kimsenin söylemesiyle değil, sonuçlara bakarak öğrenir. Bu yüzden pekiştirmeli öğrenme nedir sorusunun özü şudur: etiketten değil, deneyimden ve sonuçtan öğrenme. Makine öğrenmesinin bu üç kolunun tümü için <a href="/blog/derin-ogrenme-nedir">derin öğrenme nedir</a> rehberi iyi bir temel sunar.

## Ajan ve Çevre: Pekiştirmeli Öğrenmenin Temel Kurgusu

Her pekiştirmeli öğrenme problemi, iki taraf arasındaki bir döngü olarak kurgulanır: ajan ve çevre. Ajan, kararları veren ve öğrenen taraftır — bir robot, bir oyun oyuncusu ya da bir öneri motoru olabilir. Çevre ise ajanın içinde hareket ettiği dünyadır; ajanın eylemlerine tepki verir ve ona yeni durumlar sunar.

Bu ajan ve çevre ilişkisi sürekli bir döngü hâlinde işler. Ajan çevrenin o anki durumunu (state) gözlemler, bir eylem (action) seçer; çevre bu eyleme yeni bir durum ve bir ödül ile karşılık verir. Ajan bu ödülü kullanarak stratejisini günceller ve döngü baştan başlar. İşte pekiştirmeli öğrenmenin dört temel bileşeni budur: durum, eylem, ödül ve bunları bir araya getiren ajan ve çevre döngüsü. Bu yapı, aynı zamanda modern <a href="/blog/ai-agent-nedir">yapay zeka ajanlarının</a> da düşünsel temelini oluşturur.

## Ödül Fonksiyonu Nedir ve Neden Bu Kadar Kritiktir?

Pekiştirmeli öğrenmenin kalbinde ödül fonksiyonu vardır. Ödül fonksiyonu, ajanın yaptığı her eylemin ne kadar iyi olduğunu sayısal bir puanla ölçen kuraldır. Bir oyunda skoru artırmak pozitif ödül, bir robotun düşmesi negatif ödül olabilir. Ajanın tek amacı, uzun vadede topladığı toplam ödülü en yükseğe çıkarmaktır.

Buradaki incelik, ödülün genellikle gecikmeli olmasıdır: bir satranç hamlesinin iyi mi kötü mü olduğu ancak oyunun sonunda belli olur. Bu yüzden ajan yalnızca anlık ödülü değil, gelecekteki ödülleri de hesaba katmayı öğrenmek zorundadır. Ödül fonksiyonu tasarımı bu nedenle pekiştirmeli öğrenmenin en kritik ve en zorlu kısmıdır; çünkü ajanın öğreneceği her şeyi bu fonksiyon yönlendirir.

<callout-box data-variant="warning" data-title="Ödül hilesi (reward hacking)">

Kötü tasarlanmış bir ödül fonksiyonu tehlikelidir: ajan, sizin istediğiniz davranışı değil, ödülü en kolay artıran davranışı bulur. Klasik bir örnekte, bir tekne yarışı oyununda puan toplamayı öğrenen ajan, yarışı bitirmek yerine sonsuz döngüde puan halkalarını toplamayı keşfeder. Ajan "hile" yapmıyordur — sadece ona verdiğiniz ödül fonksiyonunu tam olarak optimize ediyordur. Bu yüzden ödül tasarımı hem teknik hem etik bir sorumluluktur.

</callout-box>

## Pekiştirmeli Öğrenme Nasıl Çalışır?

Pekiştirmeli öğrenme, ajanın çevreyle etkileşimini tekrarlayan bir döngü olarak yürütür ve her turda politikasını (policy) biraz daha iyileştirir. Politika, ajanın "hangi durumda hangi eylemi yapayım?" sorusuna verdiği yanıttır — yani öğrenilen davranış stratejisidir.

<howto-steps data-name="Bir pekiştirmeli öğrenme döngüsünün adımları" data-description="Ajanın çevreyle etkileşerek toplam ödülü en yükseğe çıkaran politikayı öğrenmesinin temel adımları." data-steps="[{&quot;name&quot;:&quot;Durumu gözlemle&quot;,&quot;text&quot;:&quot;Ajan çevrenin o anki durumunu (state) algılar; örneğin oyun tahtasının konumu veya robotun sensör verisi.&quot;},{&quot;name&quot;:&quot;Eylem seç&quot;,&quot;text&quot;:&quot;Ajan mevcut politikasına göre bir eylem seçer; bazen bilinen iyi eylemi yapar (sömürü), bazen yeni bir şey dener (keşif).&quot;},{&quot;name&quot;:&quot;Ödülü ve yeni durumu al&quot;,&quot;text&quot;:&quot;Çevre eyleme bir ödül sinyali ve yeni bir durumla karşılık verir.&quot;},{&quot;name&quot;:&quot;Politikayı güncelle&quot;,&quot;text&quot;:&quot;Ajan aldığı ödüle göre, benzer durumlarda hangi eylemin daha iyi olduğuna dair tahminini günceller.&quot;},{&quot;name&quot;:&quot;Tekrarla ve yakınsa&quot;,&quot;text&quot;:&quot;Döngü binlerce, milyonlarca kez tekrarlanır; ajan zamanla toplam ödülü en yükseğe çıkaran optimal politikaya yaklaşır.&quot;}]"></howto-steps>

Bu döngünün en ilginç yanı keşif-sömürü ikilemidir (exploration-exploitation). Ajan her zaman bildiği en iyi eylemi yaparsa (sömürü), belki daha iyi bir stratejiyi hiç keşfedemez; hep yeni şeyler denerse (keşif), bildiği iyi ödülleri kaçırır. İyi bir pekiştirmeli öğrenme algoritması bu ikisini akıllıca dengeler — tıpkı yeni bir restoran denemekle sevdiğiniz restorana gitmek arasında karar veren bir insan gibi.

## Q-learning ve Derin Pekiştirmeli Öğrenme

Klasik pekiştirmeli öğrenmenin en bilinen algoritması q-learning'dir. Q-learning'de ajan, her durum-eylem çifti için beklenen uzun vadeli ödülü temsil eden bir "Q değeri" öğrenir. Ajan her durumda en yüksek Q değerine sahip eylemi seçtiğinde, zamanla optimal politikaya ulaşır. Küçük ve sayılabilir durum uzaylarında q-learning basit ve etkilidir.

Ancak gerçek dünya problemleri — bir video oyununun ekran görüntüsü ya da bir robotun kamera görüntüsü — o kadar çok olası duruma sahiptir ki her birini bir tabloda tutmak imkânsızdır. İşte burada derin öğrenme devreye girer: Q değerlerini bir tablo yerine bir sinir ağı tahmin eder. Bu birleşime derin pekiştirmeli öğrenme (deep reinforcement learning) denir ve alanda çığır açan sonuçların çoğu bu yaklaşımdan gelmiştir. Sinir ağlarının bu rolünü <a href="/blog/derin-ogrenme-nedir">derin öğrenme nedir</a> ve temel kavramlar için <a href="/blog/algoritma-nedir">algoritma nedir</a> rehberlerinde bulabilirsiniz.

## Pekiştirmeli Öğrenmenin Türleri ve Ana Yaklaşımları

Pekiştirmeli öğrenme tek bir algoritma değil, ortak bir çerçeveyi paylaşan bir yöntemler ailesidir. Bu yöntemleri birbirinden ayıran en önemli iki eksen vardır ve bunları bilmek, hangi problemde neyin uygun olduğunu anlamayı kolaylaştırır.

Birinci eksen, ajanın neyi öğrendiğidir. Değer-temelli (value-based) yöntemler — q-learning gibi — her durum ya da eylem için beklenen ödülü tahmin etmeyi öğrenir; ajan bu tahminlere bakarak eylem seçer. Politika-temelli (policy-based) yöntemler ise doğrudan politikayı, yani "hangi durumda hangi eylem" eşlemesini öğrenir. İkisini birleştiren aktör-eleştirmen (actor-critic) yaklaşımları, hem bir eylem üreten (aktör) hem de bu eylemi değerlendiren (eleştirmen) iki bileşeni birlikte çalıştırır ve modern derin pekiştirmeli öğrenmenin çoğu bu tasarıma dayanır.

İkinci eksen, ajanın çevrenin bir modelini kurup kurmadığıdır. Modelsiz (model-free) yöntemlerde ajan çevrenin nasıl işlediğini bilmez; yalnızca deneyerek öğrenir. Model-tabanlı (model-based) yöntemlerde ise ajan çevrenin bir modelini öğrenir ve eylemlerinin sonucunu zihninde "simüle ederek" planlama yapabilir; bu, örnek verimliliğini artırabilir ama modeli kurmak zordur. Doğru yaklaşımı seçmek, problemin yapısına, veri maliyetine ve gereken güvenlik düzeyine bağlıdır.

## Denetimli Öğrenme ile Pekiştirmeli Öğrenme Farkı

İki yaklaşım sık karıştırıldığı için farkı net bir tabloyla ortaya koymak yararlıdır. Temel ayrım, öğrenme sinyalinin nereden geldiğidir: denetimli öğrenmede önceden hazırlanmış doğru cevaplardan, pekiştirmeli öğrenmede ise ajanın kendi eylemlerinin sonuçlarından.

<comparison-table data-caption="Denetimli öğrenme ile pekiştirmeli öğrenme arasındaki temel farklar" data-headers="[&quot;Boyut&quot;,&quot;Denetimli Öğrenme&quot;,&quot;Pekiştirmeli Öğrenme&quot;]" data-rows="[{&quot;feature&quot;:&quot;Öğrenme sinyali&quot;,&quot;values&quot;:[&quot;Etiketli doğru cevaplar&quot;,&quot;Ödül ve ceza sinyali&quot;]},{&quot;feature&quot;:&quot;Veri&quot;,&quot;values&quot;:[&quot;Sabit, önceden toplanmış veri kümesi&quot;,&quot;Ajanın etkileşimle ürettiği deneyim&quot;]},{&quot;feature&quot;:&quot;Amaç&quot;,&quot;values&quot;:[&quot;Girdiyi doğru çıktıya eşlemek&quot;,&quot;Uzun vadeli toplam ödülü en yükseğe çıkarmak&quot;]},{&quot;feature&quot;:&quot;Zaman boyutu&quot;,&quot;values&quot;:[&quot;Genellikle tek adımlı tahmin&quot;,&quot;Sıralı kararlar; sonuç gecikmeli&quot;]},{&quot;feature&quot;:&quot;Tipik örnek&quot;,&quot;values&quot;:[&quot;Görüntü sınıflandırma, fiyat tahmini&quot;,&quot;Oyun oynama, robot kontrolü, RLHF&quot;]}]"></comparison-table>

Bu farkın pratik sonucu şudur: bir problemde "doğru cevabı" önceden yazabiliyorsanız denetimli öğrenme genellikle daha kolay ve verimlidir. Ama problem, sırayla verilen kararlardan ve gecikmeli sonuçlardan oluşuyorsa — satranç, robot yürüyüşü, portföy yönetimi gibi — pekiştirmeli öğrenme doğal seçimdir. Bu ailelerin nasıl birbirine bağlandığını <a href="/blog/yapay-zeka-nedir">yapay zeka nedir</a> rehberinde bütüncül olarak ele alıyoruz.

## Gerçek Dünya ve Sektör Örnekleri

Pekiştirmeli öğrenme laboratuvar merakı değil; bugün üretimde değer üreten bir yaklaşımdır. En görünür örnekler oyun alanından gelir: DeepMind'ın AlphaGo sistemi, pekiştirmeli öğrenme ve kendisiyle oynama (self-play) sayesinde dünyanın en iyi Go oyuncularını yendi. Aynı prensip Atari oyunlarından modern strateji oyunlarına kadar geniş bir alanda insanüstü performans üretti.

Oyunun ötesinde etki daha da somuttur. Robotikte bir kolun nesne kavramayı ya da bir robotun yürümeyi öğrenmesi pekiştirmeli öğrenmeyle yapılır. Öneri sistemleri, dijital reklam açık artırmaları ve dinamik fiyatlandırma, uzun vadeli kullanıcı davranışını optimize etmek için bu yaklaşımı kullanır. Google, veri merkezi soğutmasını optimize ederek enerji tüketimini düşürmek için pekiştirmeli öğrenme uyguladığını duyurmuştur. Bu senaryoların ortak paydası, kararların sırayla verildiği ve asıl önemli olanın anlık değil uzun vadeli sonuç olduğu problemlerdir. Bu tür kurumsal fırsatları değerlendirmek için <a href="/consulting">yapay zeka danışmanlığı</a> iyi bir başlangıç noktasıdır.

## RLHF: Büyük Dil Modellerini İnsan Tercihlerine Hizalamak

Son yıllarda pekiştirmeli öğrenmeyi ana akıma taşıyan uygulama rlhf oldu: insan geri bildiriminden pekiştirmeli öğrenme (reinforcement learning from human feedback). RLHF, bir dil modelinin ürettiği farklı yanıtları insanların tercih sırasına göre puanlar; bu insan tercihlerinden bir ödül modeli öğrenilir ve dil modeli, bu ödülü en yükseğe çıkaracak yanıtları üretmeye doğru ince ayarlanır.

Bunun neden önemli olduğunu görmek zor değil: bir dil modeli sadece "bir sonraki kelimeyi tahmin etmeyi" öğrendiğinde teknik olarak akıcı ama yardımsever, dürüst veya güvenli olması garanti değildir. RLHF, modeli insanların gerçekten tercih ettiği yanıtlara hizalar. OpenAI'nin ChatGPT'si, Anthropic ve Google gibi kuruluşların modelleri bu tekniğin en bilinen ürünleridir. Böylece pekiştirmeli öğrenme, oyun tahtasından çıkıp bugün milyonların kullandığı <a href="/blog/chatgpt-nedir">ChatGPT</a> ve genel olarak <a href="/blog/llm-nedir">büyük dil modellerinin</a> merkezine yerleşti.

<stat-callout data-value="Dünya 1.'si" data-context="Türkiye, We Are Social &quot;Digital 2026&quot; verisine göre üretken yapay zeka araçlarından web'e yönlendirilen trafik payında dünya birincisidir; RLHF ile hizalanmış dil modellerinin&quot; data-outcome=&quot;Türkiye'de yoğun biçimde kullanıldığını ve pekiştirmeli öğrenme temelli hizalamanın bu kullanım kalitesini doğrudan etkilediğini gösterir." data-source="{&quot;label&quot;:&quot;Euronews TR / Digital 2026&quot;,&quot;url&quot;:&quot;https://tr.euronews.com/next/2026/01/04/turkiye-chatgpt-trafiginde-yuzde-9449luk-oranla-dunya-birincisi&quot;,&quot;date&quot;:&quot;2026-01&quot;}"></stat-callout>

## Pekiştirmeli Öğrenmenin Sınırları ve Yaygın Hatalar

Pekiştirmeli öğrenme güçlüdür ama her probleme uygun değildir; başarısı büyük ölçüde problemin doğru kurgulanmasına bağlıdır. En yaygın sınırlar ve hatalar şunlardır:

- **Örnek verimsizliği:** Ajan iyi bir politika öğrenmek için çoğu zaman milyonlarca deneme yapmak zorundadır; bu, gerçek dünyada (örneğin fiziksel bir robotta) pahalı ve riskli olabilir. Bu yüzden eğitim çoğunlukla simülasyonda yapılır.
- **Ödül tasarımı hataları:** Kötü tanımlanmış bir ödül fonksiyonu, ajanı istenmeyen ama yüksek puanlı davranışlara (ödül hilesi) iter. Ödülü doğru tanımlamak çoğu zaman algoritmadan daha zordur.
- **Keşif-sömürü dengesizliği:** Yetersiz keşif, ajanı yerel bir çözüme hapseder; aşırı keşif ise öğrenmeyi yavaşlatır ve kararsız hâle getirir.
- **Simülasyondan gerçeğe geçiş (sim-to-real):** Simülasyonda mükemmel öğrenen bir ajan, gerçek dünyanın öngörülemeyen ayrıntıları karşısında başarısız olabilir.

Bu sınırlar pekiştirmeli öğrenmeyi değersiz kılmaz; yalnızca onu ne zaman ve nasıl kullanacağını doğru seçmenin önemini gösterir. Doğru problemde uygulandığında, başka hiçbir yaklaşımın ulaşamadığı sonuçları üretebilir.

## Sıkça Sorulan Sorular

### Pekiştirmeli öğrenme ile denetimli öğrenme arasındaki fark nedir?

Denetimli öğrenmede her örneğin doğru cevabı etiket olarak verilir; model bu etiketleri taklit eder. Pekiştirmeli öğrenmede ise doğru cevap yoktur, yalnızca ödül sinyali vardır; ajan hangi eylemin iyi olduğunu deneme-yanılmayla, sonuçlara bakarak kendi keşfeder.

### Ödül fonksiyonu nedir ve neden bu kadar önemli?

Ödül fonksiyonu, ajanın her eyleminin ne kadar iyi olduğunu sayısal bir puanla ölçen kuraldır. Öğrenmenin tüm yönünü belirler: yanlış tasarlanmış bir ödül fonksiyonu, ajanı istenmeyen ama yüksek puanlı davranışlara iter (ödül hilesi). Bu yüzden ödül tasarımı pekiştirmeli öğrenmenin en kritik kısmıdır.

### RLHF nedir ve ChatGPT ile ilişkisi nedir?

RLHF (insan geri bildiriminden pekiştirmeli öğrenme), bir dil modelinin ürettiği yanıtları insanların tercihlerine göre puanlayıp modeli bu tercihlere hizalayan yöntemdir. ChatGPT gibi modellerin yardımsever ve güvenli yanıtlar vermesinde RLHF merkezî rol oynar.

### Q-learning nedir?

Q-learning, ajanın her durum-eylem çifti için beklenen uzun vadeli ödülü (Q değeri) tahmin etmeyi öğrendiği klasik bir pekiştirmeli öğrenme algoritmasıdır. Ajan, her durumda en yüksek Q değerine sahip eylemi seçerek zamanla optimal politikayı öğrenir.

### Pekiştirmeli öğrenme hangi gerçek problemlerde kullanılır?

Robotik kontrol, oyun oynama, öneri sistemleri, reklam ve fiyatlandırma, enerji/veri merkezi optimizasyonu ve büyük dil modeli hizalaması (RLHF) başlıca alanlardır. Ortak nokta, kararların sırayla verildiği ve uzun vadeli sonucun önemli olduğu problemlerdir.

### Pekiştirmeli öğrenmenin en büyük zorluğu nedir?

En büyük zorluklardan biri örnek verimsizliğidir: ajan iyi bir politika öğrenmek için çok sayıda deneme yapmak zorundadır, bu da gerçek dünyada pahalı veya riskli olabilir. Ayrıca keşif-sömürü dengesi ve ödül tasarımı da temel zorluklardır.

## Özetle: Pekiştirmeli Öğrenme Nedir?

Özetle pekiştirmeli öğrenme nedir sorusunun cevabı şudur: bir ajanın bir çevre içinde deneme-yanılma ve ödül/ceza yoluyla, uzun vadeli toplam ödülü en yükseğe çıkaran davranışı öğrendiği makine öğrenmesi yaklaşımı. Ajan ve çevre döngüsü, ödül fonksiyonu ve keşif-sömürü dengesi bu yaklaşımın kalbinde yer alır; q-learning ve derin pekiştirmeli öğrenme onu ölçeklenebilir kılar; rlhf ise onu bugünün büyük dil modellerinin merkezine taşır. Temel için <a href="/blog/yapay-zeka-nedir">yapay zeka nedir</a> ve <a href="/blog/derin-ogrenme-nedir">derin öğrenme nedir</a> rehberlerine göz atabilir, kurumunuzda somut bir uygulama için <a href="/consulting">yapay zeka danışmanlığı</a> veya ekip eğitimi için <a href="/training">yapay zeka eğitimleri</a> ile başlayabilirsiniz.

<!-- İÇ BAĞLANTI BORCU: /blog/makine-ogrenmesi-nedir, /blog/denetimli-ogrenme-nedir, /blog/rlhf-nedir, /blog/q-learning-nedir, /blog/sinir-agi-nedir yayınlanınca eklenecek. -->