# Olabilirlik (Likelihood) Nedir? > Source: https://sukruyusufkaya.com/blog/likelihood-nedir > Updated: 2026-07-05T16:06:19.105Z > Type: blog > Category: yapay-zeka **TLDR:** Likelihood nedir? Olabilirlik (likelihood), gözlemlenmiş veriyi sabit tutup bir modelin parametrelerini değiştirdiğimizde, o parametrelerin veriyi ne kadar iyi açıkladığını ölçen fonksiyondur. Bu rehber: net tanım, olasılık farkı, maksimum olabilirlik, log-likelihood, parametre tahmini, yapay zeka bağlantısı ve sık sorulan sorular. Likelihood nedir? Olabilirlik (likelihood, Türkçesiyle bir sonucun ortaya çıkma makuliyeti), gözlemlenmiş bir veriyi sabit tutup bir istatistiksel modelin parametrelerini değiştirdiğimizde, o parametrelerin veriyi ne kadar iyi açıkladığını ölçen fonksiyondur. Kısaca olabilirlik, "elimdeki bu veri, hangi model ayarında en makul görünür?" sorusunun matematiksel cevabıdır. Bu kavram ilk bakışta olasılığa benzer, hatta aynı formülle yazılır; ama sorduğu soru terstir. Olasılıkta modeli sabitler, verinin şansını sorarız; olabilirlikte veriyi sabitler, modelin makuliyetini sorarız. Bu ince ama belirleyici olasılık farkı, tüm istatistiksel çıkarımın ve modern makine öğrenmesinin altında yatar. Bu rehber likelihood nedir, olasılıktan nasıl ayrılır, maksimum olabilirlik ve log-likelihood nedir ve tüm bunların yapay zekayla ilişkisi nedir sorularını yanıtlıyor. ## Olabilirlik ile Olasılık Arasındaki Fark Nedir? Olabilirliği anlamanın anahtarı, onu olasılıktan ayırmaktır; çünkü ikisi aynı matematiksel ifadeyi paylaşır ama tamamen zıt sorular sorar. Bir yazı-tura örneği bu olasılık farkını netleştirir. Diyelim ki paranın tura gelme olasılığını p ile gösteriyoruz. Olasılık dünyasında p'yi biliriz (örneğin p = 0,5) ve "10 atışta kaç tura gelme şansı var?" diye sorarız. Burada parametre sabittir, veri değişkendir. Olabilirlik dünyasında ise tam tersini yaparız: veriyi görmüşüzdür (diyelim 10 atışta 7 tura) ve "hangi p değeri bu sonucu en makul kılar?" diye sorarız. Burada veri sabittir, parametre değişkendir. Formül aynı binom ifadesidir; ama olasılıkta onu verinin fonksiyonu, olabilirlikte parametrenin fonksiyonu olarak okuruz. Bu ayrımın en çok gözden kaçan sonucu şudur: olabilirlik bir olasılık dağılımı değildir. Farklı p değerleri için hesaplanan olabilirliklerin toplamı 1 olmak zorunda değildir, çünkü olabilirlik parametre üzerinde bir dağılım tanımlamaz. Bu, istatistikte en sık yapılan kavramsal hatalardan biridir ve olasılık farkını içselleştirmek onu önler. Olasılık ve olabilirlik çoğu zaman aynı fonksiyonu kullanır. Fark, neyin sabit neyin değişken olduğudur: olasılıkta parametre sabit veri değişken, olabilirlikte veri sabit parametre değişkendir. Bu tek cümle, kavramın tamamını taşır. ## Olabilirlik Fonksiyonu Nasıl Çalışır? Olabilirlik fonksiyonu, gözlemlenen veriyi girdi olarak alır ve her bir olası parametre değerine bir sayı atar: o parametrenin, eldeki veriyi ne kadar olası kıldığı. Yüksek bir olabilirlik değeri, o parametrenin veriyle uyumlu olduğunu; düşük bir değer ise uyumsuz olduğunu gösterir. Somutlaştıralım. Elimizde bir bozuk para olsun ve 10 atışta 7 tura gözlemleyelim. Tura olasılığı p = 0,5 için bu sonucun olabilirliğini hesaplarız; sonra p = 0,7 için hesaplarız; sonra p = 0,9 için. Göreceğimiz şey, p = 0,7 civarında olabilirliğin en yüksek olduğudur — çünkü 7/10 tura, tam olarak %70 tura eğilimli bir parayla en uyumlu sonuçtur. Olabilirlik fonksiyonunu tüm p değerleri boyunca çizersek, tepe noktası bize veriyi en iyi açıklayan parametreyi verir. İşte parametre tahmini tam olarak bu tepe noktasını bulma işidir: olabilirlik fonksiyonunu maksimize eden parametre değerini seçmek. Bu ilke o kadar merkezîdir ki kendi adıyla anılır — maksimum olabilirlik. ## Maksimum Olabilirlik (Maximum Likelihood) Nedir? Maksimum olabilirlik (maximum likelihood estimation, MLE), gözlemlenen veriyi en olası kılan parametre değerini seçen parametre tahmini yöntemidir. Sezgisi son derece doğaldır: elimizdeki veri gerçekten oldu; öyleyse onu en iyi açıklayan model ayarını doğru tahmin olarak kabul edelim. Yukarıdaki yazı-tura örneğinde maksimum olabilirlik tahmini basitçe p = 0,7'dir: 10 atışta 7 tura gördüysek, tura olasılığını 0,7 tahmin etmek veriyi en makul kılan değerdir. Bu sonuç sezgiyle örtüşür ve maksimum olabilirliğin neden bu kadar yaygın olduğunu gösterir. İstatistikte ortalama, varyans, regresyon katsayıları gibi pek çok tanıdık tahminci, aslında belirli varsayımlar altındaki maksimum olabilirlik sonuçlarıdır. Maksimum olabilirlik, makine öğrenmesinin de bel kemiğidir. Bir modeli "eğitmek", çoğu zaman parametrelerini eğitim verisinin olabilirliğini maksimize edecek şekilde ayarlamak demektir. Bu bağı daha geniş çerçevede görmek için makine öğrenmesi nedir ve algoritma nedir rehberlerine göz atabilirsiniz. ## Log-likelihood Neden Kullanılır? Teoride olabilirliği doğrudan maksimize edebiliriz; pratikte ise neredeyse her zaman onun logaritmasını, yani log-likelihood'u kullanırız. Bunun iki güçlü nedeni vardır. Birincisi sayısaldır. Birden çok bağımsız gözlemin ortak olabilirliği, tek tek olabilirliklerin çarpımıdır. Yüzlerce veya binlerce gözlemde bu çarpım son derece küçük sayılara iner ve bilgisayarda taşma (underflow) yaşanır. Logaritma, çarpımı toplama çevirerek bu sorunu ortadan kaldırır: log-likelihood, tek tek log-olabilirliklerin toplamıdır. İkincisi optimizasyonla ilgilidir. Bir toplamın türevini almak ve onu maksimize etmek, bir çarpımınkinden çok daha kolaydır; bu da parametre tahminini hem analitik hem sayısal olarak kolaylaştırır. Kritik nokta şudur: logaritma artan (monoton) bir fonksiyon olduğu için, log-likelihood'u maksimize eden parametre ile olabilirliği maksimize eden parametre aynıdır. Yani logaritmaya geçmek cevabı değiştirmez, sadece hesabı kolaylaştırır. Bu yüzden istatistik ve derin öğrenme literatüründe "olabilirliği maksimize et" ile "log-likelihood'u maksimize et" pratikte aynı anlama gelir. ## Olabilirlik Yapay Zekada Nasıl Kullanılır? Olabilirlik, soyut bir istatistik kavramı gibi görünse de modern yapay zekanın tam merkezindedir. Bir modeli eğitmek, çoğunlukla parametrelerini eğitim verisinin olabilirliğini maksimize edecek biçimde ayarlamak demektir. Model, gözlemlediği veriyi en olası kılan iç ayarları arar; bu da bir maksimum olabilirlik problemidir. En somut bağlantı kayıp fonksiyonundadır. Sınıflandırma ve dil modellerinde yaygın olan çapraz entropi (cross-entropy) kaybı, aslında negatif log-likelihood'un ta kendisidir. Modelin kaybını küçültmek ile eğitim verisinin log-likelihood'unu büyütmek matematiksel olarak aynı şeydir. Bir büyük dil modeli (LLM), her adımda bir sonraki token'a mümkün olan en yüksek olabilirliği atayacak parametreleri öğrenir; eğitim, milyarlarca token üzerinden dev bir log-likelihood maksimizasyonudur. Bu ilke yalnızca dev modellerde değil, temel yöntemlerde de görülür. Lojistik regresyon, parametrelerini maksimum olabilirlik ile tahmin eden klasik bir örnektir; derin öğrenme ise aynı ilkeyi milyonlarca parametreye ölçekler. Üretken yapay zeka modelleri de veriyi yüksek olabilirlikle üretebilen dağılımlar öğrenmeye çalışır. Kısacası olabilirlik, klasik istatistik ile yapay zeka arasındaki ortak dildir. Derin öğrenmede sık duyduğunuz "cross-entropy loss", yeni bir icat değildir. Onu minimize etmek, eğitim verisinin negatif log-likelihood'unu minimize etmek — yani olabilirliğini maksimize etmektir. Bu köprüyü görmek, modern model eğitiminin istatistiksel temelini netleştirir. ## Olabilirliğin Sınırları ve Yaygın Hatalar Olabilirlik güçlü ama sihirli değildir; maksimum olabilirliğin de bilinmesi gereken sınırları vardır. En bilinen sorun aşırı uyumdur (overfitting): az veriyle maksimum olabilirlik uç, güvenilmez tahminler üretebilir. Üç atışın üçü de tura gelirse, MLE tura olasılığını 1,0 tahmin eder — oysa bu, paranın hiç yazı gelmeyeceği anlamına gelmez, yalnızca verinin az olduğunu gösterir. İkinci sorun model varsayımına bağımlılıktır. Olabilirlik her zaman bir model çerçevesinde tanımlıdır; yanlış bir model seçilirse, o modelin en iyi parametresini bulmak yine de doğru cevabı vermez. Üçüncü olarak, olabilirliği bir olasılıkmış gibi yorumlamak yaygın bir hatadır — olabilirlik değerleri parametre üzerinde toplanıp 1 vermez ve tek başına "şu parametrenin olasılığı" olarak okunamaz. Bu sınırlar, olabilirliği tamamlayan yaklaşımları doğurmuştur. Bayesçi istatistik, olabilirliğe bir önsel (prior) bilgi ekleyerek uç tahminleri yumuşatır; düzenlileştirme (regularization) ise makine öğrenmesinde benzer bir dengeleme sağlar. Yani likelihood nedir sorusunun tam cevabı, onun hem gücünü hem de tek başına yetersiz kaldığı yerleri görmeyi gerektirir. ## Sıkça Sorulan Sorular ### Likelihood ile olasılık arasındaki fark nedir? Olasılıkta parametre (modelin ayarı) sabittir ve farklı veri sonuçlarının şansını sorarsınız. Olabilirlikte ise veri sabittir (elinizde gözlem vardır) ve farklı parametre değerlerinin bu veriyi ne kadar iyi açıkladığını sorarsınız. Matematiksel ifade aynı fonksiyondur; değişen, neyin sabit neyin değişken olduğudur. Bu yüzden olabilirlik bir olasılık dağılımı değildir ve toplamı 1'e eşit olmak zorunda değildir. ### Maksimum olabilirlik ne işe yarar? Maksimum olabilirlik (maximum likelihood estimation, MLE), gözlemlenen veriyi en olası kılan parametre değerini bulur. Yani "hangi model ayarı bu veriyi en iyi açıklar?" sorusuna cevap verir. Bir yazı-tura serisinde 7 tura 3 yazı gördüyseniz, tura olasılığını 0,7 olarak tahmin etmek bir MLE sonucudur. İstatistik ve makine öğrenmesinde en yaygın parametre tahmini yöntemidir. ### Log-likelihood neden kullanılır? İki pratik nedeni vardır. Birincisi, çok sayıda gözlemin olabilirliği bunların çarpımıdır ve bu çarpım çok küçük sayılara inerek bilgisayarda taşma (underflow) yaratır; logaritma çarpımı toplama çevirir ve bunu önler. İkincisi, toplamların türevini almak ve optimize etmek çarpımlardan çok daha kolaydır. Logaritma artan bir fonksiyon olduğu için log-likelihood'u maksimize etmek, olabilirliği maksimize etmekle aynı parametreyi verir. ### Olabilirlik yapay zekada nerede kullanılır? Modern yapay zeka modellerinin eğitimi büyük ölçüde bir olabilirlik maksimizasyonudur. Bir dil modeli, eğitim verisindeki bir sonraki kelimeye yüksek olabilirlik atayacak parametreleri öğrenir. Yaygın çapraz entropi (cross-entropy) kayıp fonksiyonu, aslında negatif log-likelihood'dur; onu küçültmek olabilirliği büyütmektir. Lojistik regresyondan derin sinir ağlarına kadar birçok yöntem bu ilkeye dayanır. ### Olabilirlik fonksiyonu bir olasılık mıdır? Hayır. Olabilirlik, parametrenin bir fonksiyonudur; olasılık ise verinin bir fonksiyonudur. Sabit veri için farklı parametrelere hesaplanan olabilirlik değerlerinin toplamı (veya integrali) 1 olmak zorunda değildir, çünkü olabilirlik parametre üzerinde bir olasılık dağılımı tanımlamaz. Bu ayrımı atlamak, istatistikte en sık yapılan kavramsal hatalardan biridir. ### Maksimum olabilirlik her zaman doğru sonucu verir mi? Hayır. Az veriyle maksimum olabilirlik aşırı uyuma (overfitting) yatkındır ve uç tahminler üretebilir; örneğin 3 atışın hepsi tura gelirse tura olasılığını 1,0 tahmin eder. Ayrıca yanlış bir model varsayımı altında yanlı sonuç verebilir. Bu nedenle pratikte düzenlileştirme (regularization) veya Bayesçi yaklaşımlarla önsel bilgi eklenerek olabilirlik dengelenir. ## Özetle: Olabilirlik (Likelihood) Nedir? Özetle likelihood nedir sorusunun cevabı şudur: gözlemlenmiş veriyi sabit tutup bir modelin parametrelerini değiştirdiğimizde, o parametrelerin veriyi ne kadar iyi açıkladığını ölçen fonksiyon. Onu olasılıktan ayıran olasılık farkı — veri mi yoksa parametre mi sabit — kavramın kalbidir. Maksimum olabilirlik, veriyi en olası kılan değeri seçerek parametre tahmini yapar; log-likelihood bu hesabı sayısal olarak kararlı kılar; ve tüm bu makine, çapraz entropi kaybı üzerinden modern yapay zeka eğitiminin temelini oluşturur. Temeli pekiştirmek için makine öğrenmesi nedir ve lojistik regresyon nedir rehberlerine göz atabilir, kurumunuz için doğru yapay zeka yol haritasını çıkarmak üzere yapay zeka danışmanlığı ile başlayabilirsiniz.