İçeriğe geç

Anahtar Çıkarımlar

  1. Karar ağacı, veriyi evet/hayır sorularıyla dallara ayırarak sınıflandırma veya regresyon yapan, kural tabanlı ve yorumlanabilir bir makine öğrenmesi modelidir.
  2. Her düğümde en iyi bölmeyi seçmek için bilgi kazancı (entropi düşüşü) veya gini safsızlığı gibi bir ölçüt kullanılır.
  3. Karar ağaçlarının en büyük gücü şeffaflıktır: karar yolu insan tarafından okunabilir, bu da açıklanabilir yapay zeka için kritiktir.
  4. En büyük zayıflığı aşırı öğrenmedir (overfitting); budama (pruning) ve derinlik sınırı bu riski azaltır.
  5. Tek bir ağaç kırılgandır; random forest ve gradient boosting gibi topluluk yöntemleri çok sayıda ağacı birleştirerek doğruluğu artırır.

Karar Ağacı Nedir? Makine Öğrenmesinde Sınıflandırma ve Regresyon Rehberi

Karar ağacı nedir? Karar ağacı, veriyi bir dizi evet/hayır sorusuyla dallara ayırarak sınıflandırma veya regresyon yapan, kural tabanlı ve yorumlanabilir bir makine öğrenmesi modelidir. Bu rehber: net tanım, karar ağacı nasıl çalışır, bilgi kazancı ve gini, budama, aşırı öğrenme, random forest ile ilişki, Türkiye'den sektör örnekleri ve sık sorulan sorular.

SYK
Şükrü Yusuf KAYA
AI Expert · Kurumsal AI Danışmanı

Karar ağacı nedir? Karar ağacı (decision tree), veriyi kök düğümden başlayarak bir dizi evet/hayır sorusuyla dallara ayıran ve her yaprakta bir tahmin (bir sınıf ya da bir sayı) üreten, kural tabanlı ve yorumlanabilir bir makine öğrenmesi (machine learning, verilerden örüntü öğrenen yaklaşım) modelidir. Her bölmede, veriyi en iyi ayıran soru bir ölçütle seçilir.

Karar ağacının cazibesi buradadır: bir tahminin nedenini insan gibi okuyabilirsiniz. "Gelir belirli bir eşiğin üstünde mi? Evetse, geçmiş ödemeler düzenli mi?" gibi sorular, akışı bir ağaç yapısında dallandırır. Bu rehber karar ağacı nedir, nasıl çalışır, bilgi kazancı ve gini gibi ölçütler ne işe yarar, budama neden gereklidir ve random forest ile ilişkisi nedir sorularını uzman gözüyle yanıtlıyor.

Tanım
Karar Ağacı (Decision Tree)
Veriyi kök düğümden başlayarak bir dizi evet/hayır sorusuyla (özniteliğe göre bölme) dallara ayıran ve her yaprakta bir tahmin (sınıf ya da sayı) üreten, kural tabanlı ve yorumlanabilir bir makine öğrenmesi modeli. Her bölmede bilgi kazancı veya gini gibi bir ölçütle en ayırt edici soru seçilir; sınıflandırma ve regresyon için kullanılır.
Ayrıca: Decision Tree, karar ağacı, sınıflandırma ağacı, regresyon ağacı, CART

Karar Ağacı Neden Önemli?

Karar ağacı nedir sorusuna verilen teknik cevap kadar önemli olan bir şey daha vardır: neden hâlâ bu kadar yaygın kullanıldığı. Modern yapay zekanın çoğu, ne yaptığını açıklaması zor kara kutu modellerden oluşur. Karar ağacı bunun tam tersini sunar: bir tahmine nasıl ulaşıldığını adım adım gösterir. Bu şeffaflık, onu hem eğitimde ilk öğrenilen algoritmalardan biri hem de denetime tabi sektörlerde tercih edilen bir araç yapar.

Bir bankanın kredi kararını düşünün. "Model reddetti" demek yeterli değildir; düzenleyici, müşteriye gerekçe sunulmasını ister. Karar ağacı burada doğal bir çözümdür, çünkü kararın gerekçesi doğrudan ağacın dallarında yazılıdır. Bu yüzden karar ağacı, açıklanabilir yapay zeka tartışmasının merkezinde yer alır. Ayrıca karar ağaçları, çok daha güçlü topluluk yöntemlerinin (random forest, gradient boosting) yapı taşıdır; tek başına mütevazı olsa da, birlikte kullanıldığında en yüksek doğruluğa ulaşan modellerden bazılarını oluşturur.

Karar Ağacı Nasıl Çalışır?

Bir karar ağacı üç tür düğümden oluşur: kök düğüm (tüm verinin girdiği başlangıç), iç düğümler (bir soruyla veriyi bölen dallanma noktaları) ve yaprak düğümler (nihai tahminin verildiği uçlar). Eğitim sırasında algoritma, veriyi olabildiğince "saf" alt gruplara ayıracak soruları yukarıdan aşağıya arar.

Kritik soru şudur: hangi öznitelikten ve hangi eşikten bölmeli? Algoritma her olası bölmeyi dener ve veriyi en iyi ayıranı seçer. "En iyi", bir safsızlık ölçütüyle tanımlanır: bölme sonrası alt gruplar tek bir sınıfa ne kadar yaklaşıyorsa, o bölme o kadar iyidir. Bu süreç, bir durma koşuluna (maksimum derinlik, minimum örnek sayısı veya tam saflık) ulaşana dek özyinelemeli olarak tekrarlanır.

Nasıl Yapılır

Bir karar ağacının eğitilme adımları

Ham veriden tahmin yapan bir karar ağacına giden temel adımlar.

  1. 1

    Kökten başla

    Tüm eğitim verisi kök düğüme yerleştirilir.

  2. 2

    En iyi bölmeyi bul

    Her öznitelik ve eşik için bilgi kazancı veya gini hesaplanır; veriyi en iyi ayıran soru seçilir.

  3. 3

    Veriyi böl

    Seçilen soruya göre veri iki (veya daha fazla) alt gruba ayrılır.

  4. 4

    Özyinelemeli tekrarla

    Her alt grup için aynı işlem, durma koşuluna ulaşana dek yinelenir.

  5. 5

    Yaprakları etiketle

    Her yaprak, içindeki örneklerin çoğunluk sınıfı (veya ortalaması) ile etiketlenir.

Tahmin aşaması ise çok basittir: yeni bir örnek kökten girer, her düğümdeki soruya verdiği yanıta göre ilgili dala iner ve bir yaprağa ulaşır. O yaprağın etiketi, modelin tahminidir.

Bilgi Kazancı ve Gini: Bölme Ölçütleri Nedir?

Karar ağacının kalbinde "hangi soru veriyi en iyi ayırır?" kararı vardır ve bu kararı bir sayı verir. En yaygın iki ölçüt bilgi kazancı ve gini safsızlığıdır.

Bilgi kazancı (information gain), entropi kavramına dayanır. Entropi, bir grubun ne kadar karışık olduğunu ölçer: hepsi aynı sınıftan örnekler içeren bir grubun entropisi sıfır, yarı yarıya karışık bir grubun entropisi ise yüksektir. Bir bölmenin bilgi kazancı, bölme öncesi entropi ile bölme sonrası ağırlıklı entropi arasındaki farktır — yani o soru sayesinde düzensizlik ne kadar azaldı. Algoritma, bilgi kazancı en yüksek olan bölmeyi seçer.

Gini safsızlığı (gini impurity) ise farklı bir açıdan aynı hedefe koşar: bir gruptan rastgele seçilen bir örneğin, grubun sınıf dağılımına göre rastgele etiketlendiğinde yanlış sınıflandırılma olasılığını ölçer. Saf bir grubun gini değeri sıfırdır. Pratikte bilgi kazancı ve gini çok benzer ağaçlar üretir; gini logaritma içermediği için biraz daha hızlı hesaplanır ve bu yüzden birçok kütüphanede varsayılandır.

Bilgi kazancı ve gini safsızlığı karşılaştırması
ÖlçütBilgi KazancıGini Safsızlığı
Dayandığı kavramEntropi (düzensizlik)Yanlış sınıflandırma olasılığı
Saf grup değeriEntropi 0 → kazanç maksimumGini 0
Hesap maliyetiLogaritma içerir, biraz yavaşLogaritma yok, biraz hızlı
Tipik kullanımID3 / C4.5 algoritmalarıCART, çoğu kütüphanede varsayılan
Sonuç kalitesiPratikte çok benzerPratikte çok benzer

Karar Ağacı Türleri ve Varyantları

Karar ağaçları tek bir kalıp değildir; hem çıktı türüne hem de eğitim algoritmasına göre çeşitlenir. Çıktı türüne göre ikiye ayrılırlar: sınıflandırma ağaçları bir kategori tahmin eder (spam mı değil mi, kredi onay mı ret mi), regresyon ağaçları ise sürekli bir sayı üretir (bir konutun fiyatı, bir talebin miktarı). İkisinin farkı çoğunlukla bölme ölçütündedir — regresyonda saflık yerine varyans azaltımı kullanılır.

Algoritma ailesine göre de tarihsel varyantlar vardır. ID3 ve onun gelişmiş hâli C4.5, bilgi kazancını kullanan klasik yöntemlerdir. CART (Classification and Regression Trees), gini tabanlı ikili bölmeler yapar ve bugün en yaygın uygulamaların temelidir. Bu varyantların ayrıntısından çok, hepsinin ortak fikrini akılda tutmak önemlidir: veriyi ardışık sorularla saflaştırmak. Karar ağacı, daha geniş makine öğrenmesi ailesinin gözetimli öğrenme koluna aittir ve genellikle lojistik regresyon gibi doğrusal modellere doğrusal olmayan, kural tabanlı bir alternatif olarak konumlanır.

Aşırı Öğrenme ve Budama

Karar ağaçlarının en büyük zaafı aşırı öğrenmedir (overfitting). Sınırsız büyümesine izin verilen bir ağaç, eğitim verisindeki her gürültüyü bile ezberleyecek kadar derinleşebilir; sonuçta eğitimde kusursuz görünür ama daha önce görmediği veride başarısız olur. Bir yaprakta yalnızca tek bir örnek kaldığında, o ağaç öğrenmeyi bırakıp ezberlemeye başlamış demektir.

Bu riski yönetmenin temel yolu budamadır (pruning). Ön budama (pre-pruning), ağacı büyürken sınırlar: maksimum derinlik, bir düğümdeki minimum örnek sayısı veya minimum bilgi kazancı eşiği koyarak erken durdurur. Son budama (post-pruning) ise ağacı tam büyütüp ardından genellemeye katkısı olmayan dalları kesip basitleştirir. Budama, hem doğruluğu artırır hem de ağacı daha okunabilir kılarak yorumlanabilirlik avantajını korur. Bu yaklaşım, daha genel bir derin öğrenme düzenlileştirme fikrinin basit ama etkili bir örneğidir.

Random Forest ve Topluluk Yöntemleri

Tek bir karar ağacı sezgiseldir ama kırılgandır: verideki küçük bir değişiklik, ağacın yapısını tamamen değiştirebilir. Bu kararsızlığı aşmak için topluluk yöntemleri (ensemble methods) geliştirilmiştir ve en bilineni random forest'tır.

Random forest, çok sayıda karar ağacını rastgeleleştirerek eğitir: her ağaç, verinin rastgele bir alt kümesi ve özniteliklerin rastgele bir alt kümesiyle büyütülür. Tahmin anında bütün ağaçlar oy verir ve çoğunluk (veya ortalama) kazanır. Bu "kalabalığın bilgeliği", tek bir ağacın hatalarını birbirine dengeleyerek çok daha doğru ve kararlı bir model üretir. Gradient boosting ise farklı bir topluluk stratejisidir: ağaçları sırayla ekler, her yeni ağaç öncekilerin hatalarını düzeltmeye odaklanır.

Tek karar ağacı ile random forest karşılaştırması
BoyutTek Karar AğacıRandom Forest
DoğrulukOrta, kırılganYüksek, kararlı
Aşırı öğrenmeYüksek riskBelirgin biçimde düşük
YorumlanabilirlikÇok yüksek, tek yol okunurDüşük, yüzlerce ağaç
Eğitim maliyetiDüşükDaha yüksek
Tipik kullanımAçıklama gereken, basit modellerDoğruluğun öncelikli olduğu tablolu veri

Ödünleşim nettir: tek ağaç yorumlanabilirlik kazandırır, random forest doğruluk kazandırır. Kredi skorlama gibi gerekçe zorunlu senaryolarda tek ağaç veya sığ ağaçlar tercih edilebilirken, ham tahmin doğruluğunun öncelikli olduğu tablolu veri problemlerinde random forest ve gradient boosting standart seçimdir.

Karar Ağacı Pratikte Hangi Araçlarla Kurulur?

Bir karar ağacını bugün sıfırdan kodlamak zorunda değilsiniz; olgun kütüphaneler bu işi standartlaştırmıştır. Python ekosisteminde scikit-learn, hem sınıflandırma hem regresyon için CART tabanlı karar ağacı ve random forest uygulamalarını hazır sunar; varsayılan bölme ölçütü çoğunlukla gini'dir, ancak bilgi kazancına (entropi) tek satırla geçebilirsiniz. Daha yüksek doğruluk gerektiğinde XGBoost, LightGBM ve CatBoost gibi gradient boosting kütüphaneleri, çok sayıda karar ağacını sıralı biçimde birleştirerek tablolu veri yarışmalarında sık sık ilk sıralara yerleşir.

Pratik bir kurulum sırası şöyledir: önce veriyi eğitim ve test olarak ayırın, tek bir karar ağacıyla bir temel (baseline) kurun, ağacın derinliğini ve yaprak başına minimum örnek sayısını ayarlayarak budama uygulayın, ardından bu temeli random forest veya gradient boosting ile karşılaştırın. Bu aşamalı yaklaşım, hem modelin nasıl karar verdiğini anlamanızı hem de doğruluk ile yorumlanabilirlik arasındaki dengeyi bilinçli kurmanızı sağlar. Bir modelin ürüne taşınmasında ise MLOps pratikleri — sürüm yönetimi, izleme ve yeniden eğitme — devreye girer. Bu adımları uçtan uca uygulamalı öğrenmek için eğitim programlarına göz atabilirsiniz.

Türkiye ve Sektörden Gerçek Dünya Örnekleri

Karar ağaçları ve türev topluluk modelleri, özellikle tablolu (satır-sütun) verinin baskın olduğu sektörlerde yaygındır. Bankacılık ve finansta kredi skorlama, dolandırıcılık tespiti (bkz. anomali tespiti) ve müşteri kaybı (churn) tahmini tipik uygulamalardır; bu alanlarda hem doğruluk hem de kararın gerekçelendirilebilmesi kritiktir.

Sağlıkta hasta risk sınıflandırması, perakendede talep tahmini ve müşteri segmentasyonu, üretimde ise kalite kontrol ve arıza öngörüsü karar ağacı tabanlı modellerle ele alınır. Türkiye özelinde, kişisel veri içeren bu tür kararlarda KVKK uyumu belirleyicidir: otomatik bir kararın gerekçesini sunabilmek yalnızca teknik değil, hukuki bir gerekliliktir. Karar ağacının doğal yorumlanabilirliği tam da bu noktada avantaja dönüşür.

Karar Ağacı Nedir Sorusu Sinir Ağıyla Nasıl Ayrışır?

Karar ağacı nedir sorusunun cevabını, onu popüler bir alternatifle — yapay sinir ağı ile — karşılaştırınca daha net görürsünüz. İkisi de gözetimli öğrenmede sınıflandırma ve regresyon yapar, ama felsefeleri zıttır. Karar ağacı, insan tarafından okunabilen açık kurallar üretir; sinir ağı ise milyonlarca ağırlığa dağılmış, doğrudan okunamayan bir temsil öğrenir.

Bu ayrım pratik bir seçim doğurur. Verisi tablolu (satır-sütun), az sayıda ve anlamlı özniteliğe sahip, kararın gerekçesinin zorunlu olduğu problemlerde karar ağacı ve türev topluluk modelleri çoğu zaman hem daha doğru hem de daha savunulabilirdir. Buna karşılık görüntü, ses ve metin gibi ham, yüksek boyutlu verilerde sinir ağları ve derin öğrenme açık ara öndedir; çünkü bu veri türlerinde anlamlı öznitelikleri elle tanımlamak yerine modelin kendisinin öğrenmesi gerekir. Yani "hangisi daha iyi" sorusunun cevabı, veri türüne ve açıklanabilirlik ihtiyacına bağlıdır; karar ağacı, tablolu ve denetime tabi senaryoların doğal seçimidir.

Karar Ağacının Sınırları ve Yaygın Hatalar

Karar ağacı güçlü ve sezgisel olsa da, farkında olunması gereken sınırları vardır. En bilineni, daha önce değindiğimiz aşırı öğrenmedir; ama tek sorun bu değildir.

  • Kararsızlık: Eğitim verisindeki küçük bir değişiklik, tamamen farklı bir ağaç yapısı üretebilir. Bu yüzden tek bir ağaç, üzerine kritik karar bina edilecek kadar sağlam olmayabilir.
  • Eksene paralel bölmeler: Karar ağaçları veriyi dikey/yatay eşiklerle böler; çapraz (doğrusal olmayan) sınırları yakalamak için çok sayıda bölme gerekir, bu da ağacı gereksiz büyütür.
  • Dengesiz veriye duyarlılık: Bir sınıf çok baskınsa, ağaç azınlık sınıfını görmezden gelmeye eğilimlidir; sınıf ağırlıklandırma gerekebilir.
  • Sürekli hedeflerde kabalık: Regresyon ağaçları basamaklı (kademeli) tahminler üretir; çok pürüzsüz ilişkileri modellemekte doğrusal yöntemler kadar zarif değildir.

Bu sınırların çoğu, tek bir ağaç yerine bir topluluk (random forest, gradient boosting) kullanılarak veya budama ile hafifletilir. Doğru araç seçimi, problemin doğruluk mu yoksa açıklanabilirlik mi önceliklendirdiğine bağlıdır.

Sıkça Sorulan Sorular

Karar ağacı ile random forest arasındaki fark nedir?

Karar ağacı tek bir ağaçtır ve tek başına aşırı öğrenmeye yatkındır. Random forest ise çok sayıda karar ağacını rastgele veri ve öznitelik alt kümeleriyle eğitip oylarını birleştiren bir topluluk yöntemidir. Random forest genellikle daha doğru ve daha kararlıdır, ama tek bir ağaç kadar kolay yorumlanamaz.

Bilgi kazancı ile gini arasındaki fark nedir?

İkisi de bir bölmenin veriyi ne kadar iyi ayırdığını ölçer. Bilgi kazancı entropiye dayanır ve bölme sonrası düzensizliğin ne kadar azaldığını hesaplar; gini safsızlığı ise rastgele seçilen bir örneğin yanlış sınıflandırılma olasılığını ölçer. Pratikte sonuçları çok benzerdir; gini biraz daha hızlı hesaplanır.

Budama (pruning) neden gereklidir?

Sınırsız büyüyen bir karar ağacı eğitim verisini ezberler ve yeni veride başarısız olur; buna aşırı öğrenme denir. Budama, ağacın çok az örneğe dayanan veya genellemeye katkısı olmayan dallarını keserek modeli basitleştirir. Bu, hem doğruluğu hem de yorumlanabilirliği artırır.

Karar ağacı sınıflandırma mı yoksa regresyon mu yapar?

İkisini de yapar. Yaprak düğümde bir kategori (örneğin 'kredi onaylandı/reddedildi') üretiyorsa sınıflandırma ağacı, sürekli bir sayı (örneğin bir konutun fiyatı) üretiyorsa regresyon ağacıdır. Bölme ölçütü buna göre değişir: sınıflandırmada gini/bilgi kazancı, regresyonda varyans azaltımı kullanılır.

Karar ağaçları neden yorumlanabilir kabul edilir?

Çünkü bir tahminin nedeni doğrudan okunabilir: kökten yaprağa uzanan yol, 'gelir > X ve yaş < Y ise onayla' gibi açık kurallara dönüşür. Sinir ağlarının aksine kara kutu değildir. Bu şeffaflık, karar ağaçlarını açıklanabilir yapay zeka ve denetime tabi sektörler için değerli kılar.

Özetle: Karar Ağacı Nedir?

Özetle karar ağacı nedir sorusunun cevabı şudur: veriyi ardışık evet/hayır sorularıyla dallara ayırıp her yaprakta bir tahmin üreten, kural tabanlı ve yorumlanabilir bir makine öğrenmesi modeli. Bölme kararları bilgi kazancı veya gini ile verilir; aşırı öğrenme budama ile yönetilir; doğruluk gerektiğinde random forest ve gradient boosting gibi topluluk yöntemleriyle güçlendirilir. Temel için makine öğrenmesi nedir ve algoritma nedir rehberlerine göz atabilir, kurumsal bir yapay zeka yol haritası için yapay zeka danışmanlığı ile başlayabilir, temelleri güçlendirmek için öğrenme merkezine göz atabilirsiniz.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Yorumlar

Yorumlar