Skip to content
Derin Öğrenme 30 dk

Overfitting, Underfitting ve Generalization: Derin Öğrenmede Gerçek Performans Nasıl İnşa Edilir?

Derin öğrenme projelerinde en sık yanlış anlaşılan konulardan biri, eğitim başarımı ile gerçek performansın aynı şey sanılmasıdır. Oysa modelin eğitim verisinde düşük hata vermesi, doğrulama setinde güçlü görünmesi ya da kısa vadede etkileyici sonuçlar üretmesi; her zaman iyi genelleyen, güvenilir ve sürdürülebilir bir sistem kurulduğu anlamına gelmez. Overfitting, modelin veriyi öğrenmek yerine veri setine özgü gürültü ve örüntülere aşırı uyum sağlamasıdır. Underfitting ise modelin problemin temel yapısını bile yeterince yakalayamamasıdır. Generalization ise modelin görülmemiş örneklerde tutarlı performans gösterebilme kapasitesidir. Bu kapsamlı rehberde, overfitting, underfitting ve generalization kavramlarını yalnızca tanımsal düzeyde değil; veri, model kapasitesi, regularization, evaluation, training dynamics ve production AI perspektifleriyle birlikte ele alıyor; derin öğrenmede gerçek performansın nasıl inşa edileceğini detaylı biçimde inceliyoruz.

SYK

YAZAR

Şükrü Yusuf KAYA

4

Overfitting, Underfitting ve Generalization: Derin Öğrenmede Gerçek Performans Nasıl İnşa Edilir?

Derin öğrenme projelerinde en tehlikeli yanılgılardan biri, modelin eğitim sırasında iyi görünmesini gerçek başarı ile eşitlemektir. Eğitim loss’u düşmüşse, accuracy yükselmişse ve birkaç örnek üzerinde model etkileyici sonuçlar veriyorsa, ekipler doğal olarak “iyi gidiyoruz” hissine kapılır. Ancak derin öğrenmede asıl soru modelin eğitim verisini ne kadar iyi ezberlediği değil; daha önce görmediği verilerde ne kadar güvenilir, tutarlı ve kararlı çalıştığıdır. Bu fark, yani eğitim başarımı ile gerçek dünya başarımı arasındaki fark, tam olarak overfitting, underfitting ve generalization kavramlarının merkezindedir.

Bir model çok güçlü olabilir ama yanlış şekilde eğitildiğinde eğitim verisine aşırı uyum sağlayarak yeni örneklerde zayıf kalabilir. Bir model çok kararlı görünebilir ama aslında problemi yeterince öğrenmediği için yüzeysel davranıyor olabilir. Bazen de model ne aşırı uyum ne de yetersiz uyum gösterir; bunun yerine problemi öğrenir, gürültüyü değil sinyali yakalar ve yeni örneklerde de güçlü kalır. İşte bu üçüncü durum, yani gerçek genelleme kapasitesi, derin öğrenmede sürdürülebilir performansın temelidir.

Kurumsal ve üretim odaklı AI projelerinde bu ayrım çok daha kritiktir. Çünkü eğitim veri setinde yüksek performans veren ama üretimde kırılan model, çoğu zaman yalnızca teknik bir hata değil; aynı zamanda maliyet, güven ve ürün kalitesi problemidir. Overfitting bir araştırma problemi olduğu kadar iş problemidir. Underfitting yalnızca düşük doğruluk değil, yanlış modelleme kararıdır. Generalization ise yalnızca iyi metrik değil, sistemin gerçek kullanım koşullarında değer üretme kapasitesidir.

Bu yazıda overfitting, underfitting ve generalization kavramlarını sistematik biçimde ele alacağım. Önce her kavramı netleştireceğim. Ardından bunların neden yalnızca basit eğitim eğrileriyle açıklanamayacağını, veri yapısı, model kapasitesi, optimizer davranışı, regularization, augmentation, evaluation ve production AI perspektifleriyle birlikte nasıl düşünülmesi gerektiğini inceleyeceğim. Son bölümde ise derin öğrenmede gerçek performansın nasıl inşa edileceğini, yani yalnızca düşük loss değil gerçekten genelleyen modelin nasıl kurulduğunu tartışacağım.

Neden Bu Üç Kavram Derin Öğrenmenin Kalbidir?

Bir derin öğrenme modeli eğitim sırasında verideki örüntüleri öğrenmeye çalışır. Ama burada temel bir ayrım vardır: model verinin altında yatan gerçek yapıyı mı öğreniyor, yoksa veri setine özgü tesadüfi örüntüleri mi? Bu sorunun cevabı doğrudan üç temel kavrama bağlanır:

  • Underfitting: Model problemi yeterince öğrenemiyor.
  • Overfitting: Model problemi değil, eğitim verisinin aşırı özel ayrıntılarını öğreniyor.
  • Generalization: Model, verinin altında yatan gerçek yapıyı öğrenip bunu yeni örneklere taşıyabiliyor.

Dolayısıyla bu üçlü aslında tek bir ana sorunun farklı yüzleridir: modelin öğrenmesi ne kadar doğru seviyede gerçekleşiyor?

"

Kritik gerçek: Derin öğrenmede amaç eğitim verisini mümkün olduğunca iyi ezberlemek değil; verinin altında yatan yapıyı öğrenip yeni örneklere taşınabilir hale getirmektir.

Underfitting Nedir?

Underfitting, modelin veri içindeki temel örüntüleri bile yeterince öğrenememesi durumudur. Bu durumda model hem eğitim verisinde hem de doğrulama veya test verisinde zayıf performans gösterir. Başka bir ifadeyle, model daha en başta problemi anlamamaktadır.

Underfitting’in Temel Belirtileri

  • Eğitim hatası yüksek kalır
  • Validation hatası da yüksektir
  • Model kapasitesi problem için yetersiz olabilir
  • Eğitim süresi kısa olabilir veya optimizasyon başarısız olabilir
  • Girdi temsili veya özellikler zayıf olabilir

Underfitting Neden Oluşur?

  • Model çok basittir
  • Yetersiz sayıda katman veya parametre vardır
  • Learning rate ya da optimizer ayarı yanlıştır
  • Loss function görevle uyumlu değildir
  • Eğitim süreci yeterince uzun değildir
  • Regularization aşırı sert uygulanmıştır

Önemli bir nokta şudur: underfitting her zaman “küçük model” demek değildir. Bazen çok büyük model bile yanlış optimizasyon, kötü veri temsili ya da hatalı eğitim reçetesi nedeniyle underfit olabilir. Yani mesele yalnızca kapasite değil, kapasitenin etkin kullanımıdır.

Overfitting Nedir?

Overfitting, modelin eğitim verisini o kadar ayrıntılı öğrenmesi ki, verinin altındaki genel yapıyı değil veri setine özgü gürültüleri, rastlantısal korelasyonları ve özel örnekleri de içselleştirmesi durumudur. Bunun sonucu olarak model eğitim verisinde çok iyi görünür; ancak validation veya test verisinde aynı başarıyı sürdüremez.

Overfitting’in Temel Belirtileri

  • Eğitim performansı çok güçlüdür
  • Validation performansı daha zayıftır veya zamanla bozulur
  • Training loss düşerken validation loss artmaya başlar
  • Model yeni örneklere karşı kırılgan hale gelir
  • Küçük veri değişimlerinde kararsız davranış görülebilir

Overfitting Neden Oluşur?

  • Model kapasitesi veri miktarına göre aşırı yüksektir
  • Veri seti küçüktür veya çeşitlilik düşüktür
  • Etiket gürültüsü vardır
  • Eğitim süresi gereğinden uzundur
  • Regularization yetersizdir
  • Data augmentation veya veri çeşitliliği düşüktür
  • Validation kurgusu hatalıdır ve gerçek genelleme doğru ölçülmüyordur

Overfitting’in önemli bir özelliği, çoğu zaman başlangıçta başarı gibi görünmesidir. Eğitim eğrileri iyileşir, metrikler artar ve ekip modelin güçlendiğini sanabilir. Oysa model gerçekte eğitim verisine fazla bağlanmaktadır.

Generalization Nedir?

Generalization, modelin eğitim sırasında öğrendiği örüntüleri daha önce görmediği verilere başarıyla uygulayabilme kapasitesidir. Bu, yalnızca test setinde iyi skor almak anlamına gelmez. Daha derin anlamıyla generalization, modelin veri setine özgü tesadüfi yapılar yerine, problemin altında yatan daha genel ve taşınabilir yapıyı öğrenmiş olmasıdır.

İyi Generalization Nasıl Görünür?

  • Eğitim ve validation performansı arasında sağlıklı bir denge vardır
  • Yeni veri dağılımlarında performans ani biçimde çökmez
  • Model küçük giriş değişimlerine karşı aşırı kırılgan değildir
  • İş metrikleri zaman içinde daha tutarlı kalır
  • Model yalnızca benchmark’ta değil, gerçek kullanımda da değer üretir

Dolayısıyla generalization, eğitim sırasında görülen başarı ile üretim sırasında beklenen güvenilirlik arasındaki köprüdür.

Bias-Variance Perspektifi ile Nasıl Düşünmeliyiz?

Makine öğrenmesi literatüründe underfitting ve overfitting çoğu zaman bias-variance dengesi üzerinden açıklanır. Basit sezgi şu şekildedir:

  • Yüksek bias: Model çok basit kalır, problemi yeterince öğrenemez, underfitting oluşur.
  • Yüksek variance: Model eğitim verisine fazla hassas hale gelir, küçük veri farkları büyük davranış farkı yaratır, overfitting oluşur.

Bu çerçeve faydalıdır; ancak modern derin öğrenmede tek başına yeterli değildir. Çünkü çok büyük modeller bazen beklenenden daha iyi genelleyebilir, çift iniş benzeri davranışlar görülebilir ve klasik bias-variance sezgisi tek başına resmi açıklamakta yetersiz kalabilir. Yine de pratikte şu sezgi hâlâ değerlidir: kapasite, veri ve regularization arasında dengesizlik varsa ya underfitting ya overfitting riski büyür.

Bu Problemler Sadece Eğitim Eğrilerinden mi Anlaşılır?

Hayır. Eğitim ve validation eğrileri çok faydalıdır; ama tek başına yeterli değildir. Çünkü bazen validation set de gerçek dünya koşullarını temsil etmeyebilir. Ayrıca bazı durumlarda model validation setinde iyi görünür ama gerçek dağılım kayması altında zayıf kalır. Bu nedenle gerçek generalization, yalnızca train/val farkına bakılarak değil; veri ayrımı, zaman bazlı test, out-of-domain test ve production metrikleriyle birlikte değerlendirilmelidir.

Klasik Eğri Desenleri

Underfitting Deseni

  • Training loss yüksek
  • Validation loss yüksek
  • İkisi de yeterince düşmüyor

Overfitting Deseni

  • Training loss düşmeye devam ediyor
  • Validation loss bir noktadan sonra kötüleşiyor
  • Train/validation gap açılıyor

Sağlıklı Generalization Deseni

  • Training ve validation performansı birlikte iyileşiyor
  • Aradaki fark makul düzeyde kalıyor
  • Yeni örneklerde kalite korunuyor

Ancak tekrar vurgulamak gerekir: bu desenler başlangıç rehberidir, nihai gerçeklik değil.

Overfitting ve Underfitting’i Belirleyen Ana Faktörler Nelerdir?

1. Model Kapasitesi

Model kapasitesi, modelin karmaşık örüntüleri öğrenebilme gücünü ifade eder. Çok düşük kapasite, underfitting riskini artırır. Çok yüksek kapasite ise veri ve regularization yeterli değilse overfitting riskini büyütebilir.

2. Veri Miktarı ve Çeşitliliği

Az veri, dar çeşitlilik ve sınırlı kapsama alanı modelin aşırı uyum riskini artırır. Yeterli veri yalnızca örnek sayısı değil, örnek çeşitliliği anlamına da gelir.

3. Etiket Kalitesi

Etiket gürültüsü overfitting açısından çok kritiktir. Model gerçek sinyal yerine etiket hatalarını öğrenmeye başlayabilir. Bu durumda eğitim doğruluğu yüksek görünse bile gerçek performans düşer.

4. Eğitim Süresi

Model bazı görevlerde erken epoch’larda genel örüntüleri öğrenir, daha sonra veri setine özgü ayrıntılara fazla uyum sağlayabilir. Bu yüzden ne kadar uzun eğitim yapılacağı da genelleme üzerinde doğrudan etkilidir.

5. Regularization Stratejileri

Weight decay, dropout, label smoothing, early stopping, data augmentation, mixup ve benzeri teknikler modelin aşırı uyum eğilimini azaltmada önemli rol oynar.

6. Optimizer ve Learning Rate Dinamiği

Farklı optimizer’lar ve farklı learning rate schedule’ları aynı modeli farklı genelleme profiline götürebilir. Çok agresif öğrenme veya çok esnek adaptif optimizasyon bazen validation davranışını beklenmedik biçimde etkileyebilir.

Gerçek Performans Neden Sadece Test Accuracy Değildir?

Derin öğrenmede gerçek performans yalnızca bir test setindeki accuracy, F1 veya mAP değildir. Çünkü üretimde karşılaşılacak veri, çoğu zaman test setinden daha karmaşıktır. Kullanıcı davranışı değişir, sınıf dağılımı farklılaşır, giriş verisinin kalitesi bozulur ve hata maliyetleri eşit olmaz.

Gerçek Performansı Belirleyen Boyutlar

  • Görülmemiş örneklerde istikrar
  • Dağılım kaymasına dayanıklılık
  • Nadir vakalarda davranış
  • Karar güvenilirliği
  • Hata maliyeti yüksek örneklerde kalite
  • Zaman içindeki sürdürülebilirlik

Bu yüzden gerçek generalization, sadece benchmark başarısı değil; değişen koşullarda da değer üretebilen model davranışıdır.

Overfitting ile Mücadelede En Etkili Yaklaşımlar Nelerdir?

1. Daha İyi Veri, Sadece Daha Fazla Veri Değil

Veri çeşitliliğini artırmak, sınıf dengesini iyileştirmek, uç durumları kapsamak ve etiket kalitesini yükseltmek çoğu zaman regularization eklemekten daha büyük etki yaratır.

2. Data Augmentation

Görme, ses ve bazı metin görevlerinde augmentation, modelin örnek uzayını daha geniş görmesini sağlayarak veri setine özgü aşırı uyumu azaltabilir.

3. Early Stopping

Validation performansı bozulmaya başladığında eğitimi durdurmak, klasik ve etkili bir stratejidir. Ancak doğru validation tasarımı olmadan tek başına yeterli değildir.

4. Weight Decay ve Diğer Regularization Teknikleri

Modeli gereğinden fazla karmaşık çözümler bulmaya iten parametre büyümelerini sınırlamak, genellemeyi iyileştirebilir.

5. Dropout

Özellikle bazı mimarilerde modelin belirli nöronlara aşırı bağımlı hale gelmesini engelleyerek daha dayanıklı temsiller öğrenmesine katkı sağlayabilir.

6. Label Smoothing

Modelin aşırı özgüvenli olmasını azaltarak sınıflandırma görevlerinde daha dengeli genelleme davranışı üretebilir.

7. Daha Doğru Validation ve Evaluation

Bazen problem model değil, yanlış kurulmuş değerlendirme düzenidir. Veri sızıntısı, yanlış split, benzer örneklerin train ve val arasında dağılması ya da zaman bağımlı problemler için rastgele split kullanımı sahte başarı oluşturabilir.

Underfitting ile Mücadelede Neler Yapılmalı?

1. Model Kapasitesini Artır

Problem karmaşıksa daha derin, daha geniş veya daha güçlü mimari gerekebilir.

2. Eğitimi Yeterince Uzat

Bazen model henüz öğrenme aşamasındadır ve erken bırakılmıştır.

3. Optimizer ve Learning Rate’i Gözden Geçir

Kötü optimizasyon ayarları, modelin aslında öğrenebileceği şeyi öğrenememesine yol açabilir.

4. Loss Function Uyumunu Kontrol Et

Yanlış loss, modelin yanlış şeyi optimize etmesine neden olabilir.

5. Aşırı Regularization’ı Azalt

Dropout, weight decay veya augmentation seviyesi fazla agresifse model temel örüntüleri bile öğrenemeyebilir.

Modern Derin Öğrenmede Generalization Neyi İnşa Etmek Demektir?

Modern derin öğrenmede generalization yalnızca “validation sette iyi gitmek” demek değildir. Daha derin anlamda generalization şu dört şeyi aynı anda kurmak demektir:

  1. Verinin altındaki gerçek yapıyı öğrenmek
  2. Gürültüye ve rastlantısal korelasyona aşırı bağlanmamak
  3. Yeni örneklerde kararlı kalmak
  4. İş bağlamı değiştiğinde tamamen kırılmamak

Bu açıdan bakıldığında, genelleme yalnızca eğitim tekniği değil; veri toplama, model seçimi, regularization, evaluation ve production monitoring’in birleşimidir.

Production AI Perspektifinde Neden Daha Kritik?

Araştırma ortamında overfitting çoğu zaman validation metriğinin düşmesiyle sınırlı görünür. Üretimde ise sonuçları çok daha ciddidir:

  • Müşteri deneyimi bozulur
  • Hata maliyeti yükselir
  • Model güncel olmayan davranış üretir
  • Ekibin güveni azalır
  • Retraining ve bakım maliyeti artar

Bu yüzden production AI açısından generalization, yalnızca bilimsel kalite değil; operasyonel güvenilirlik göstergesidir.

Gerçek Performans Nasıl İnşa Edilir?

1. Veriyi Modelden Önce Ciddiye Al

Generalization çoğu zaman önce veri problemidir. Temsil etmeyen veriyle genelleyen model beklenmez.

2. Validation Tasarımını Stratejik Kur

Rastgele split her zaman doğru değildir. Zaman bazlı, kullanıcı bazlı veya alan bazlı ayrımlar gerekebilir.

3. Kapasiteyi Körü Körüne Büyütme

Daha büyük model her zaman daha iyi gerçek performans vermez; veri ve regularization ile birlikte düşünülmelidir.

4. Regularization’ı Sonradan Eklenen Yama Gibi Görme

Regularization, generalization stratejisinin çekirdeğidir.

5. Training Metric ile Business Metric’i Ayrı İzle

Validation accuracy iyi olabilir ama kritik sınıflar kötü olabilir. Gerçek performans iş etkisiyle birlikte ölçülmelidir.

6. Production Monitoring Kur

Generalization yalnızca eğitim anında ölçülmez; üretimde zamanla da izlenmelidir.

En Sık Yapılan Hatalar

  1. Eğitim başarısını gerçek başarı sanmak
  2. Validation seti yetersiz veya temsil etmeyen şekilde kurmak
  3. Model kapasitesini veri miktarından bağımsız artırmak
  4. Etiket gürültüsünü göz ardı etmek
  5. Overfitting’i sadece dropout ile çözülecek küçük sorun sanmak
  6. Underfitting’i sadece “daha çok epoch” ile açıklamak
  7. Regularization’ı rastgele ve ölçmeden uygulamak
  8. Dağılım kaymasını evaluation dışında bırakmak
  9. Nadir vakaları ayrı izlememek
  10. Test setini geliştirme sürecinde aşırı kullanarak kirletmek
  11. Production metriklerini offline metrikten kopuk ele almak
  12. Generalization’ı yalnızca tek bir sayı ile özetlemek

Pratik Karar Matrisi

DurumTipik Belirtiİlk Müdahale
UnderfittingTrain ve validation performansı birlikte zayıfKapasite, optimizasyon ve loss uyumunu gözden geçir
OverfittingTrain güçlü, validation zayıflıyorVeri, regularization ve evaluation tasarımını iyileştir
Zayıf GeneralizationOffline iyi, gerçek kullanımda bozulmaDağılım kayması ve production monitoring kur

Kurumsal Takımlar için Stratejik Tasarım İlkeleri

1. Generalization’ı Sadece Train-Val Farkı Olarak Görme

Gerçek genelleme, üretim koşullarındaki davranışla birlikte anlaşılır.

2. Veriyi Temsil Gücü Açısından Ölç

Veri çok olabilir ama temsil etmiyor olabilir. Sorun miktar değil dağılım olabilir.

3. Model Kapasitesini Evaluation Kalitesiyle Beraber Artır

Daha güçlü model, daha güçlü değerlendirme disiplinini zorunlu kılar.

4. Regularization ve Augmentation’ı Görev Yapısına Göre Tasarla

Tek bir reçete tüm problemlerde işe yaramaz.

5. Offline Başarıyı Production Güveni ile Doğrula

Gerçek performans ancak üretim davranışıyla teyit edilir.

30-60-90 Günlük İyileştirme Çerçevesi

İlk 30 Gün: Performans Problemini Sınıflandır

  • Underfitting mi, overfitting mi, yoksa gerçek dünya generalization sorunu mu olduğunu ayır
  • Train, validation ve mümkünse out-of-domain performansı ayrı incele
  • Veri split ve etiket kalitesini denetle

31-60 Gün: Temel Müdahale Katmanlarını Kur

  • Regularization, augmentation ve optimizer ayarlarını kontrollü karşılaştır
  • Nadir sınıf ve yüksek maliyetli hata analizini ekle
  • Validation stratejisini gerçek kullanım koşullarına yaklaştır

61-90 Gün: Generalization’ı Üretim Standardına Taşı

  • Offline ve online metrikleri birlikte izlemeye başla
  • Drift ve task success sinyallerini takip et
  • İlk kurumsal model generalization değerlendirme standardını yayınla

Sonuç: Derin Öğrenmede Başarı, Öğrenmek Değil Doğru Şeyi Doğru Düzeyde Öğrenmektir

Overfitting, underfitting ve generalization; derin öğrenme projelerinde yalnızca eğitim terimleri değildir. Bunlar, modelin dünyayı nasıl öğrendiğini ve bu öğrenmenin ne kadar güvenilir olduğunu anlatan temel kavramlardır. Underfitting, modelin problemi kaçırdığını gösterir. Overfitting, modelin problemi değil veri setini öğrendiğini gösterir. Generalization ise modelin anlamlı yapıyı kavradığını ve bunu yeni örneklere taşıyabildiğini gösterir.

Bu nedenle gerçek performans, eğitim verisinde mükemmel görünmekle değil; yeni örneklerde, değişen koşullarda ve gerçek iş bağlamında güvenilir kalmakla inşa edilir. Uzun vadede güçlü ekipler, yalnızca daha büyük model kuran ekipler değil; neyin aşırı uyum, neyin yetersiz öğrenme ve neyin gerçek genelleme olduğunu ayırt edebilen ekipler olacaktır.

Sık Sorulan Sorular

Overfitting sadece küçük veri setlerinde mi olur?

Hayır. Küçük veri bunu kolaylaştırabilir; ancak büyük veri setlerinde de etiket gürültüsü, yanlış validation tasarımı veya aşırı kapasite nedeniyle overfitting görülebilir.

Underfitting her zaman küçük model demek midir?

Hayır. Yanlış optimizer, kötü learning rate, uygunsuz loss veya aşırı regularization da underfitting yaratabilir.

Validation seti iyi ise model mutlaka iyi genelliyor mudur?

Hayır. Validation set gerçek kullanım dağılımını temsil etmiyorsa model production ortamında yine zayıf kalabilir.

Generalization’ı artırmanın en güçlü yolu nedir?

Tek bir yol yoktur; ama genellikle veri kalitesi ve veri temsil gücü, düzenli evaluation ve doğru regularization birlikte en büyük etkiyi yaratır.

Train loss çok düşükse bu iyi bir şey değil mi?

Tek başına değil. Train loss’un düşmesi beklenir; önemli olan bunun validation ve gerçek kullanım performansına nasıl yansıdığıdır.

Danismanlik Baglantilari

Bu yaziya en yakin consulting sayfalari

Bu blog iceriginden bir sonraki adima gecmek istersen, en ilgili solution, role ve industry landing'lerini burada gorebilirsin.

Yorumlar

Yorumlar