İçeriğe geç

Anahtar Çıkarımlar

  1. Lojistik regresyon, bir gözlemin belirli bir sınıfa ait olma olasılığını tahmin eden ikili sınıflandırma modelidir; adında 'regresyon' geçse de temel işi sınıflandırmadır.
  2. Sigmoid fonksiyonu (S biçimli eğri), modelin ürettiği sınırsız ham skoru 0 ile 1 arasında bir olasılığa sıkıştırarak kararın olasılık temelli olmasını sağlar.
  3. Model, odds oranı (bir olayın olma ihtimalinin olmama ihtimaline oranı) üzerinden çalışır; katsayılar her değişkenin odds üzerindeki etkisini yorumlanabilir kılar.
  4. Lineer regresyon farkı nettir: lineer regresyon sürekli bir sayı (fiyat, sıcaklık) tahmin eder, lojistik regresyon ise bir sınıf/olasılık tahmin eder.
  5. Yorumlanabilir, hızlı ve az veriyle çalışan bir temel model olduğu için bankacılıktan sağlığa kadar sektörlerde hâlâ ilk denenen sınıflandırma yöntemlerindendir.

Lojistik Regresyon Nedir? Sınıflandırma ve Sigmoid Fonksiyonu Rehberi

Lojistik regresyon nedir? Lojistik regresyon, bir gözlemin belirli bir sınıfa ait olma olasılığını tahmin eden, ikili sınıflandırma için kullanılan istatistiksel bir makine öğrenmesi modelidir. Bu rehber: net tanım, sigmoid fonksiyonu, odds oranı, lineer regresyon farkı, nasıl çalışır, sektör örnekleri, çok sınıflı varyantlar, sık yapılan hatalar ve sık sorulan sorular.

SYK
Şükrü Yusuf KAYA
AI Expert · Kurumsal AI Danışmanı

Lojistik regresyon nedir? Lojistik regresyon (logistic regression), bir gözlemin belirli bir sınıfa ait olma olasılığını tahmin eden ve bu olasılığa göre gözlemi iki kategoriden birine atayan istatistiksel bir makine öğrenmesi modelidir. Adında "regresyon" geçse de temel işi sınıflandırma yapmaktır; çıktısı bir sayı değil, bir olasılık ve ondan türeyen bir karardır.

"E-posta spam mi değil mi?", "Bu müşteri ayrılacak mı?", "Bu kredi başvurusu geri ödenir mi?" gibi soruların ortak yanı, cevabın iki seçenekten biri olmasıdır. Lojistik regresyon tam olarak bu tür ikili karar problemlerini veriden öğrenerek olasılık temelinde tahmin etmek için tasarlanmıştır. Bu rehber lojistik regresyon nedir, sigmoid fonksiyonu ile nasıl çalışır, odds oranı ne anlama gelir, lineer regresyon farkı nedir ve hangi sektörlerde nasıl kullanıldığını ele alıyor.

Tanım
Lojistik Regresyon (Logistic Regression)
Bir gözlemin belirli bir sınıfa ait olma olasılığını tahmin eden, ikili sınıflandırma için kullanılan istatistiksel makine öğrenmesi modeli. Girdilerin doğrusal bir birleşimini alır, sigmoid fonksiyonu ile 0-1 arası bir olasılığa çevirir ve bir eşik uygulayarak gözlemi bir sınıfa atar; katsayıları odds oranı üzerinden yorumlanabilir.
Ayrıca: Logistic Regression, logit modeli, lojistik regresyon, sınıflandırma modeli

Lojistik Regresyon Nedir ve Neden Önemlidir?

Lojistik regresyon, makine öğrenmesinin en temel ve en çok kullanılan sınıflandırma modellerinden biridir. Önemi, üç özelliğin bir arada bulunmasından gelir: yorumlanabilirlik, hız ve az veriyle çalışabilme. Modern derin öğrenme mimarileri milyonlarca parametreyle "kara kutu" gibi davranırken, lojistik regresyon her girdinin sonucu nasıl etkilediğini açıkça gösterir.

Bu şeffaflık, düzenlemeye tabi sektörlerde kritik bir avantajdır. Bir bankanın kredi reddini gerekçelendirmesi veya bir hekimin risk skorunu açıklaması gerektiğinde, "model öyle dedi" yeterli değildir; hangi faktörün kararı ne yönde etkilediğinin bilinmesi gerekir. Lojistik regresyon bu ihtiyacı doğal olarak karşıladığı için, daha güçlü modeller mevcut olsa bile çoğu projede ilk kurulan temel (baseline) model olmayı sürdürür. Makine öğrenmesinin daha geniş resmi için algoritma nedir ve derin öğrenme nedir rehberlerine göz atabilirsiniz.

Lojistik Regresyon Nasıl Çalışır?

Lojistik regresyon iki adımda düşünülebilir. Önce model, tıpkı doğrusal bir denklem gibi, her girdiyi bir katsayıyla çarpıp toplayarak ham bir skor (logit) üretir. Bu skor teorik olarak eksi sonsuzdan artı sonsuza kadar herhangi bir değer alabilir; olasılık olarak yorumlanamaz. İkinci adımda bu ham skor, sigmoid fonksiyonundan geçirilerek 0 ile 1 arasında bir olasılığa dönüştürülür.

Nasıl Yapılır

Bir lojistik regresyon tahmininin adımları

Girdilerden nihai sınıf kararına kadar modelin izlediği temel adımlar.

  1. 1

    Girdileri ağırlıklandır

    Her özellik (yaş, gelir, geçmiş davranış) bir katsayıyla çarpılıp toplanarak ham bir skor (logit) hesaplanır.

  2. 2

    Sigmoid ile olasılığa çevir

    Ham skor sigmoid fonksiyonundan geçirilir ve 0 ile 1 arasında bir olasılığa dönüştürülür.

  3. 3

    Eşik uygula

    Olasılık bir karar eşiğiyle (çoğunlukla 0,5) karşılaştırılır; üzerindeyse bir sınıf, altındaysa diğer sınıf seçilir.

  4. 4

    Katsayıları eğitimle öğren

    Katsayılar, eğitim verisindeki gerçek sonuçlara en uygun olacak şekilde (maksimum olabilirlik) optimize edilir.

Modelin öğrenme süreci, bu katsayıları veriden bulmaktan ibarettir. Eğitim sırasında model, tahmin ettiği olasılıklar ile gerçek etiketler arasındaki uyumu en üst düzeye çıkaracak katsayıları arar. Bu yüzden lojistik regresyon, hem matematiksel olarak sağlam hem de sonuçları açıklanabilir bir yöntemdir.

Sigmoid Fonksiyonu Ne İşe Yarar?

Lojistik regresyonun kalbinde sigmoid fonksiyonu yatar. Sigmoid fonksiyonu, girdi olarak aldığı herhangi bir sayıyı — ne kadar büyük veya küçük olursa olsun — 0 ile 1 arasında bir değere sıkıştıran S biçimli bir eğridir. Çok büyük pozitif skorlar 1'e, çok büyük negatif skorlar 0'a yaklaşır; skor sıfırken çıktı tam olarak 0,5 olur.

Bu dönüşüm neden gereklidir? Çünkü olasılığın tanımı gereği 0 ile 1 arasında olması şarttır; doğrusal bir denklemin ham çıktısı ise bu aralığın dışına taşabilir. Sigmoid fonksiyonu, ham skoru anlamlı bir olasılığa çevirerek "bu gözlem %82 olasılıkla pozitif sınıfa aittir" gibi yorumlanabilir çıktılar üretilmesini sağlar. Böylece karar, keskin bir "evet/hayır" yerine, bir güven düzeyiyle birlikte verilebilir; bu da eşik değerini iş ihtiyacına göre ayarlama esnekliği kazandırır.

Odds Oranı ve Katsayılar Nasıl Yorumlanır?

Lojistik regresyonu yalnızca bir tahmin aracı değil, aynı zamanda bir açıklama aracı yapan şey odds oranı kavramıdır. Odds (bahis oranı), bir olayın olma olasılığının olmama olasılığına oranıdır: bir olayın olasılığı %80 ise, odds 0,80 / 0,20 = 4'tür, yani olay olmama ihtimaline göre dört kat daha olasıdır. Lojistik regresyonun matematiği doğrudan bu odds'un logaritması (log-odds) üzerine kuruludur.

Bunun pratik değeri şudur: modelin her katsayısı, ilgili değişken bir birim arttığında odds oranının nasıl değiştiğini gösterir. Örneğin bir sağlık modelinde "sigara" değişkeninin katsayısı, sigara içmenin hastalık odds'unu kaç kat artırdığını söyler. Bu yorumlanabilirlik, lojistik regresyonu sektörlerde vazgeçilmez kılar; çünkü yalnızca "ne" tahmin edildiğini değil, "neden" tahmin edildiğini de açıklar.

Lineer Regresyon ile Lojistik Regresyon Farkı Nedir?

İki yöntem sık karıştırılır çünkü ikisi de girdilerin doğrusal bir birleşimiyle başlar. Ancak amaçları temelden ayrışır. Lineer regresyon farkı, çıktının doğasında yatar: lineer regresyon sürekli bir sayısal değer (ev fiyatı, sıcaklık, satış miktarı) tahmin ederken, lojistik regresyon bir kategoriye ait olma olasılığını tahmin eder.

Lineer regresyon ile lojistik regresyon karşılaştırması
ÖzellikLineer RegresyonLojistik Regresyon
AmaçSürekli değer tahmini (regresyon)Sınıf/olasılık tahmini (sınıflandırma)
ÇıktıSınırsız bir sayı0 ile 1 arası olasılık
Örnek soruBu ev kaç TL eder?Bu müşteri ayrılacak mı?
Çekirdek dönüşümYok (doğrudan doğrusal çıktı)Sigmoid fonksiyonu
Hata ölçüsüOrtalama kare hataLog-loss (çapraz entropi)

Kısacası, tahmin edilecek şey "ne kadar" ise lineer regresyon, "hangisi" veya "olur mu" ise lojistik regresyon uygundur. Bu ayrımı görmek, bir problemi doğru yöntemle eşleştirmenin ilk adımıdır ve model seçiminde en sık yapılan hatayı — yanlış çıktı tipini modellemeyi — önler.

Lojistik Regresyon Türleri ve Varyantları

Temel lojistik regresyon iki sınıf içindir, ancak birkaç yaygın varyantı vardır. İkili (binary) lojistik regresyon en bilinenidir: iki olası sonuç arasında karar verir. İkiden fazla kategori olduğunda multinomial (çok sınıflı) lojistik regresyon kullanılır; bu, softmax genellemesiyle her sınıf için bir olasılık üretir ve en yüksek olasılıklı sınıfı seçer. Kategorilerin sıralı olduğu durumlarda (örneğin "düşük / orta / yüksek risk") ordinal lojistik regresyon tercih edilir.

Bir diğer önemli boyut düzenlileştirmedir (regularization). Aşırı öğrenmeyi (overfitting) önlemek için L1 (lasso) ve L2 (ridge) düzenlileştirmesi eklenmiş varyantlar yaygın kullanılır; L1 aynı zamanda gereksiz değişkenleri eleyerek modeli sadeleştirir. Bu varyantlar sayesinde lojistik regresyon, iki sınıflı basit problemlerden çok sınıflı ve yüksek boyutlu problemlere kadar geniş bir yelpazede uygulanabilir.

Lojistik Regresyon Hangi Sektörlerde Kullanılır?

Lojistik regresyonun gerçek gücü, uygulama genişliğinde görülür. Bankacılık ve finansta kredi skorlama ve dolandırıcılık tespiti için kullanılır: bir başvurunun geri ödenme veya bir işlemin sahte olma olasılığı tahmin edilir; yorumlanabilirlik burada yasal bir zorunluluktur. Sağlıkta bir hastanın belirli bir hastalığa yakalanma veya bir tedaviye yanıt verme olasılığını tahmin eden risk modellerinin temelinde çoğu zaman lojistik regresyon vardır.

Pazarlama ve e-ticarette müşteri kaybı (churn) tahmini, kampanyaya yanıt olasılığı ve dönüşüm tahmini için tercih edilir. İnsan kaynaklarında bir çalışanın işten ayrılma riskini modellemek için kullanılır. Bu örneklerin ortak paydası, sonucun ikili bir karar olması ve kararın gerekçesinin iş açısından önemli olmasıdır. Türkiye'deki KOBİ'ler için de lojistik regresyon, pahalı altyapı gerektirmeden mevcut müşteri verisinden hızlı ve açıklanabilir tahminler üretmenin pratik bir yoludur.

Lojistik Regresyonun Sınırları ve Yaygın Hatalar

Lojistik regresyon güçlü bir temel model olsa da her probleme uygun değildir. En temel sınırı, değişkenler ile sonucun log-odds'u arasında yaklaşık doğrusal bir ilişki varsaymasıdır. Gerçek dünyadaki karmaşık, doğrusal olmayan örüntüleri tek başına yakalayamaz; bu tür durumlarda ağaç tabanlı modeller veya derin öğrenme daha başarılı olabilir.

Bu sınırlar, lojistik regresyonu değersiz kılmaz; aksine onu ne zaman kullanacağını bilmeyi gerektirir. Doğru veri hazırlığı, uygun metrik seçimi ve iş bağlamına göre eşik ayarı ile lojistik regresyon, daha karmaşık modellerin performansını değerlendirmek için sağlam bir kıyas noktası ve çoğu zaman yeterli bir çözüm sunar.

Bir Lojistik Regresyon Modeli Nasıl Değerlendirilir?

Bir sınıflandırma modeli kurmak yeterli değildir; ne kadar iyi çalıştığını doğru metriklerle ölçmek gerekir. Lojistik regresyonda en sık bakılan başlangıç metriği doğruluk (accuracy) olsa da, dengesiz verilerde tek başına yanıltıcıdır: sınıfların %95'inin "olumsuz" olduğu bir problemde her şeye "olumsuz" diyen bir model %95 doğruluk gösterir ama işe yaramaz.

Bu yüzden lojistik regresyon değerlendirmesinde kesinlik (precision) ve duyarlılık (recall) birlikte kullanılır: kesinlik "pozitif dediklerimin ne kadarı gerçekten pozitif", duyarlılık ise "gerçek pozitiflerin ne kadarını yakaladım" sorusunu yanıtlar. İkisini dengeleyen F1 skoru ve modelin farklı eşiklerdeki ayırt etme gücünü özetleyen ROC eğrisi altındaki alan (AUC), modelin gerçek başarısını doğruluktan çok daha güvenilir biçimde gösterir. Metrik seçimi, problemde hangi hatanın daha maliyetli olduğuna göre yapılmalıdır; örneğin hastalık tespitinde bir vakayı kaçırmamak (yüksek duyarlılık), yanlış alarmdan daha önceliklidir.

Sıkça Sorulan Sorular

Lojistik regresyon neden "regresyon" adını taşır ama sınıflandırma yapar?

Ad, yönteme temel olan matematiksel yapıdan gelir: model, olasılığın logit dönüşümünü girdilerin doğrusal bir birleşimiyle modeller; bu iç yapı bir regresyondur. Ancak çıktısı bir olasılığa ve oradan bir sınıfa dönüştürüldüğü için pratikte bir sınıflandırma modelidir.

Sigmoid fonksiyonu ne işe yarar?

Sigmoid fonksiyonu, modelin ürettiği ve teorik olarak eksi sonsuzdan artı sonsuza kadar değişebilen ham skoru 0 ile 1 arasında bir olasılığa çevirir. S biçimli bu eğri, çıktıyı olasılık olarak yorumlanabilir kılar ve karar eşiğinin (örneğin 0,5) uygulanmasını mümkün kılar.

Lojistik regresyon ile lineer regresyon arasındaki fark nedir?

Lineer regresyon sürekli bir sayısal değer (ev fiyatı, sıcaklık) tahmin eder; lojistik regresyon ise bir sınıfa ait olma olasılığını tahmin eder. Lineer regresyon farkı çıktı tipindedir: biri sınırsız bir sayı, diğeri 0-1 arası bir olasılık üretir.

Lojistik regresyon hangi durumlarda tercih edilir?

Sonucun iki (veya birkaç) kategoriden biri olduğu, verinin nispeten az olduğu ve modelin neden o kararı verdiğinin açıklanması gerektiği durumlarda tercih edilir. Kredi onayı, hastalık riski ve müşteri kaybı tahmini bunun tipik örnekleridir.

Lojistik regresyonun sınırları nelerdir?

Değişkenler ile sonucun logit'i arasında yaklaşık doğrusal bir ilişki varsayar; karmaşık, doğrusal olmayan örüntüleri tek başına yakalayamaz. Bu durumlarda ağaç tabanlı modeller veya derin öğrenme daha iyi sonuç verebilir; yine de sağlam bir başlangıç modelidir.

İkiden fazla sınıf olduğunda lojistik regresyon kullanılabilir mi?

Evet. İkiden fazla kategori için multinomial (çok sınıflı) lojistik regresyon veya softmax genellemesi kullanılır. Böylece model, üç veya daha fazla sınıf arasından her biri için bir olasılık üretir ve en yüksek olasılıklı sınıfı seçer.

Özetle: Lojistik Regresyon Nedir?

Özetle lojistik regresyon nedir sorusunun cevabı şudur: girdilerden bir olasılık üretip bir gözlemi iki sınıftan birine atayan, sigmoid fonksiyonuna dayanan yorumlanabilir bir sınıflandırma modeli. Ham skoru odds oranı ve sigmoid ile olasılığa çevirir; lineer regresyon farkı çıktının bir sayı değil bir sınıf/olasılık olmasıdır. Yorumlanabilir, hızlı ve az veriyle çalıştığı için bankacılıktan sağlığa birçok sektörde ilk denenen sınıflandırma yöntemidir. Temel için yapay zeka nedir, algoritma nedir ve büyük veri nedir rehberlerine göz atabilir, kurumunuza özel bir tahmin modeli için yapay zeka danışmanlığı ile başlayabilir veya ekibinizi geliştirmek için eğitim programlarına bakabilirsiniz.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Yorumlar

Yorumlar