Skip to content
Bilgisayarlı Görü 31 dk

Görü Sistemlerinde Veri Kalitesi, Domain Shift ve Gerçek Hayat Performansı Nasıl Yönetilir?

Görü sistemlerinde yüksek doğruluk elde etmek, gerçek dünyada güvenilir performans üretmek için tek başına yeterli değildir. Bir model laboratuvar ortamında güçlü metrikler verebilir; ancak kamera farkı, ışık koşulları, arka plan çeşitliliği, veri etiketleme kalitesi, sınıf dengesizliği, nadir senaryolar, cihaz değişimi, mevsimsel farklılıklar ve operasyonel akıştaki sapmalar nedeniyle üretimde ciddi performans kaybı yaşayabilir. Bu nedenle modern bilgisayarlı görü projelerinde asıl mesele yalnızca model mimarisi değil; veri kalitesi yönetimi, domain shift analizi, slice-based evaluation, hata maliyeti, monitoring ve sürekli iyileştirme döngüsünün birlikte kurulmasıdır. Bu kapsamlı rehberde, görü sistemlerinde veri kalitesini nasıl yöneteceğimizi, domain shift türlerini nasıl teşhis edeceğimizi, gerçek hayat performansını nasıl ölçeceğimizi ve üretim ortamında dayanıklı vision sistemlerini nasıl inşa edeceğimizi detaylı biçimde ele alıyoruz.

SYK

YAZAR

Şükrü Yusuf KAYA

2

Görü Sistemlerinde Veri Kalitesi, Domain Shift ve Gerçek Hayat Performansı Nasıl Yönetilir?

Bilgisayarlı görü projelerinde en yaygın yanılgılardan biri, güçlü offline metriklerin gerçek dünyada da aynı kaliteyi garanti ettiğini düşünmektir. Bir model validation setinde yüksek accuracy, mAP veya IoU üretebilir; demo ortamında etkileyici sonuçlar verebilir; hatta birkaç kontrollü testte kusursuza yakın görünebilir. Ancak üretime çıkıldığında aynı sistemin farklı kamera sensörlerinde, düşük ışıkta, hareket bulanıklığında, kirli lens koşullarında, yeni arka planlarda, farklı kullanıcı davranışlarında veya daha önce nadir görülen örneklerde hızla bozulduğu görülür. Bu durum tesadüf değildir. Görü sistemlerinin gerçek zorluğu, laboratuvar başarısından çok saha dayanıklılığıdır.

Bu nedenle bilgisayarlı görüde asıl mesele yalnızca iyi bir backbone seçmek, daha büyük model kullanmak veya daha fazla epoch eğitmek değildir. Asıl mesele; verinin ne kadar temsil gücüne sahip olduğu, etiketlerin ne kadar tutarlı olduğu, modelin hangi görsel varyasyonları gerçekten öğrendiği, hangi veri dilimlerinde kırıldığı ve üretim ortamındaki değişime ne kadar dayanıklı kaldığıdır. Bir başka ifadeyle, güçlü vision sistemi kurmak; mimari kadar veri kalitesi, domain shift yönetimi ve gerçek hayat performans ölçümü problemidir.

Özellikle kurumsal ve operasyonel sistemlerde bu ayrım daha da kritiktir. Güvenlik kameralarında çalışan bir insan tespiti modeli, yalnızca gündüz verisiyle iyi görünüyorsa gece vardiyasında işe yaramaz. Endüstriyel kalite kontrol sistemi temiz üretim hattında iyi çalışıp farklı üretim lotlarında bozuluyorsa ticari değeri sınırlı kalır. Perakendede raf analizi yapan model, yeni paket tasarımı geldiğinde çöküyorsa sürdürülebilir değildir. Sağlık görüntüleme sistemi farklı cihaz üreticilerinden gelen veride performans kaybediyorsa klinik güven zedelenir. Yani gerçek performans, benchmark’tan çok operasyonel dayanıklılıkla ölçülür.

Bu yazıda görü sistemlerinde veri kalitesi, domain shift ve gerçek hayat performansını sistematik biçimde ele alacağım. Önce veri kalitesinin yalnızca etiket doğruluğundan ibaret olmadığını açıklayacağım. Ardından domain shift’in farklı türlerini, bunların vision modellerinde nasıl ortaya çıktığını ve neden offline başarıyı boşa çıkarabildiğini inceleyeceğim. Sonrasında gerçek hayat performansının nasıl ölçülmesi gerektiğini, slice-based evaluation, error-cost analizi, monitoring ve sürekli iyileştirme döngüsüyle birlikte tartışacağım. Amaç, görü sistemlerini araştırma denemesi olmaktan çıkarıp üretim sınıfı ve saha dayanıklı sistemler olarak tasarlamaya yardımcı olacak bir çerçeve sunmaktır.

Neden Görü Sistemlerinde Gerçek Hayat Performansı Ayrı Bir Problem Olarak Ele Alınmalıdır?

Bir görüntü modeli çoğu zaman kontrollü veri üzerinde eğitilir ve benzer dağılımdan gelen bir validation veya test setinde ölçülür. Bu yapı araştırma açısından doğrudur; ancak üretim gerçekliği çoğu zaman çok daha dağınıktır. Kamera açısı değişebilir, çözünürlük düşebilir, nesne farklı mesafeden görünebilir, arka plan kalabalıklaşabilir, renk profili değişebilir, hava koşulları dönüşebilir, yeni cihazlar sisteme girebilir ve kullanıcı davranışı eğitim verisinde görülmeyen görsel desenler üretebilir.

Bu nedenle görü sistemlerinde şu ayrım kritik hale gelir:

  • Offline performance: Kontrollü test koşullarında ölçülen kalite
  • Real-world performance: Değişken, gürültülü ve operasyonel koşullarda sürdürülen kalite

Bu iki performans aynı değildir. Hatta bazı projelerde aralarındaki fark, model seçiminden daha önemlidir. Çünkü gerçek hayatta başarısız olan sistemin benchmark başarısı teknik olarak ilginç olabilir; ama operasyonel değeri sınırlı kalır.

"

Kritik gerçek: Görü sistemlerinde asıl kalite, modelin bilinen veri üzerinde ne kadar iyi çalıştığı değil; değişen gerçek dünya koşullarında ne kadar güvenilir kaldığıdır.

Veri Kalitesi Nedir? Sadece Etiket Doğruluğu mu?

Bilgisayarlı görü projelerinde veri kalitesi çoğu zaman dar anlamda “etiketler doğru mu?” sorusuna indirgenir. Oysa veri kalitesi çok daha geniştir. Güçlü bir görü sistemi için veri yalnızca doğru etiketlenmiş değil; aynı zamanda temsil edici, dengeli, çeşitli, operasyonel koşulları yansıtan, nadir ama kritik örnekleri kapsayan ve görev mantığıyla uyumlu olmalıdır.

Veri Kalitesinin Başlıca Boyutları

  • Etiket doğruluğu
  • Örnek çeşitliliği
  • Dağılım temsiliyeti
  • Sınıf dengesi
  • Edge-case kapsaması
  • Görüntü teknik kalitesi
  • Zaman ve cihaz çeşitliliği
  • İş hedefiyle uyum

Yani veri kalitesi; “doğru etiketlenmiş kaç görüntü var?” sorusundan çok, “gerçek kullanım ortamını temsil eden ne kadar doğru ve yeterince çeşitli veri var?” sorusudur.

1. Etiket Kalitesi: Hatalı Ground Truth, Hatalı Model Davranışı Üretir

Etiket kalitesi, görü projelerinde en temel fakat çoğu zaman yüzeysel ele alınan alanlardan biridir. Sınıflandırmada yanlış sınıf etiketi, detection’da hatalı bounding box, segmentation’da eksik mask, landmark görevlerinde kaymış anahtar nokta, kalite kontrol problemlerinde yanlış kusur işaretlemesi; modelin öğrenme sinyalini doğrudan bozar.

Tipik Etiketleme Sorunları

  • Yanlış sınıf etiketi
  • Eksik anotasyon
  • Fazla anotasyon
  • Bounding box sınır hataları
  • Maskelerin tutarsız çizilmesi
  • Benzer örneklerde annotator tutarsızlığı
  • Sınır vakalarda farklı yorumlar

Neden Kritik?

Çünkü görsel görevlerde etiket hatası sadece lokal değil, dağılımsal bir problem yaratabilir. Örneğin bir detection veri setinde küçük nesneler sistematik olarak eksik etiketlenmişse model, küçük nesneleri görmezden gelmeyi öğrenebilir. Segmentation maskeleri nesne sınırlarını tutarsız çiziyorsa modelin boundary kalitesi doğal olarak sınırlanır. Kusur tespiti verisinde ince çatlaklar annotator’lar tarafından tutarsız işaretlenmişse model nadir ve kritik kusurları kaçırabilir.

Ne Yapılmalı?

  • Label audit yapılmalı
  • Annotator agreement ölçülmeli
  • Kritik sınıflar için ikinci göz kontrolü uygulanmalı
  • Hata türü bazlı etiket kalite raporu tutulmalı

2. Temsil Edici Veri: Dataset Güzel Görünüyor Ama Gerçek Hayatı Temsil Ediyor mu?

Görü projelerinde veri seti büyük olabilir; ama yine de gerçek kullanım koşullarını temsil etmeyebilir. Bu, en tehlikeli veri kalitesi sorunlarından biridir. Çünkü ekip modelin yeterince veri gördüğünü düşünür; oysa model sadece dar ve temiz bir evren öğrenmiştir.

Temsiliyeti Bozan Faktörler

  • Tek kamera tipi kullanılması
  • Sınırlı ışık koşulu
  • Benzer arka planlar
  • Aynı cihaz veya aynı lokasyondan veri gelmesi
  • Belirli kullanıcı veya ürün varyasyonlarının eksikliği
  • Sadece başarılı / kolay örneklerin toplanması

Örnekler

Bir perakende raf tanıma sistemi sadece ideal raf fotoğraflarıyla eğitilmişse, müşteri tarafından eğik açıyla çekilmiş fotoğraflarda bozulabilir. Araç tespit sistemi sadece açık havada gündüz verisiyle eğitilmişse yağmur, gece ve far yansımasında düşüş yaşar. Endüstriyel vision sistemi temiz parçalar ve temiz zemin üzerinde iyi çalışırken yağlı yüzey veya çizikli kamera camında başarısız olabilir.

3. Sınıf Dengesi ve Uzun Kuyruk Problemi

Birçok görü projesinde bazı sınıflar veya hata tipleri doğası gereği nadirdir. Bu nadirlik bazen ticari olarak önemsiz değildir; tam tersine kritik olabilir. Defect detection, güvenlik ihlali tespiti, tıbbi anomali sınıflandırması, nadir obje türleri ve edge-case olaylar buna örnektir.

Neden Tehlikelidir?

  • Genel accuracy çoğunluk sınıflar yüzünden yüksek görünebilir
  • Azınlık sınıf recall ciddi biçimde düşük kalabilir
  • İş açısından en maliyetli hatalar saklanabilir

Ne Yapılmalı?

  • Class-level metrikler izlenmeli
  • Rare-case evaluation setleri oluşturulmalı
  • Sampling ve loss stratejileri gözden geçirilmeli
  • Nadir örnek toplama süreci ayrı yönetilmeli

4. Görüntü Teknik Kalitesi: Işık, Netlik, Sensör ve Sıkıştırma Etkileri

Görü sistemlerinde veri kalitesi yalnızca semantik değil, fiziksel görüntü kalitesiyle de ilgilidir. Düşük çözünürlük, motion blur, sıkıştırma artifaktları, lens kirlenmesi, renk kaymaları, sensör gürültüsü ve aşırı pozlama gibi teknik bozulmalar doğrudan performansı etkileyebilir.

Sık Görülen Teknik Bozulmalar

  • Düşük ışık
  • Aşırı ışık ve parlama
  • Motion blur
  • Out-of-focus kareler
  • Video sıkıştırma artifaktları
  • Farklı kamera renk profilleri
  • Düşük bitrate veya frame kaybı

Bu bozulmalar yalnızca “zor örnek” değil, çoğu zaman ayrı domain olarak düşünülmelidir. Çünkü model bu teknik varyasyonları görmeden eğitilmişse, semantic olarak basit olan sahnelerde bile bozulabilir.

Domain Shift Nedir?

Domain shift, eğitim sırasında görülen veri dağılımı ile üretimde karşılaşılan veri dağılımı arasında anlamlı fark oluşmasıdır. Görü sistemlerinde bu problem son derece yaygındır. Çünkü görsel dünya statik değildir. Kamera değişir, çevre değişir, kullanıcı davranışı değişir, nesnelerin görünümü değişir, hatta görev tanımı bile zamanla farklılaşabilir.

Domain shift, bir modelin neden “testte iyi, sahada kötü” olduğunu açıklayan en temel kavramlardan biridir.

Domain Shift Türleri Görü Sistemlerinde Nasıl Ortaya Çıkar?

1. Covariate Shift

Girdi dağılımı değişir, ama hedef kavram aynı kalır. Örneğin kedi hâlâ kedidir; ama artık farklı kamera, farklı ışık ve farklı arka planla görünüyordur.

Örnekler

  • Yeni kamera sensörüne geçiş
  • Gece / gündüz farkı
  • Farklı mağaza düzeni
  • Mevsim değişimi

2. Label / Prior Shift

Sınıf dağılımı değişir. Örneğin üretimde kusurlu ürün oranı eğitim verisine göre çok daha düşüktür ya da belirli nesne türleri artık daha sık görülüyordur.

3. Concept Shift

Etiketin kendisi veya problem tanımı değişir. Örneğin eskiden kabul edilebilir olan üretim toleransı artık kusur sayılıyordur. Ya da yeni ürün ambalajı, eski sınıf tanımını anlamsız hale getiriyordur.

4. Sensor / Device Shift

Farklı kamera, lens, çözünürlük, codec veya frame pipeline kullanımı doğrudan görsel dağılımı değiştirir.

5. Geographic / Operational Shift

Farklı saha lokasyonları, kullanıcı davranışları veya operasyon akışları yeni veri profilleri üretir.

6. Sim-to-Real Shift

Simülasyon veya sentetik veri üzerinde eğitilen model gerçek dünya görüntüsüne geçtiğinde bozulabilir.

Neden Domain Shift Görü Sistemlerinde Bu Kadar Yaygındır?

Çünkü görsel dünya, dil verisine kıyasla fiziksel ortama daha doğrudan bağlıdır. Görüntüdeki piksel dağılımı; kamera, ışık, mesafe, perspektif, hava, yüzey yansıması, nesne yerleşimi, fon ve hareket gibi çok sayıda faktörden etkilenir. Bu nedenle görünürde aynı görev bile çok farklı veri dağılımları üretebilir.

Bir nesne tespit sistemi, aynı nesneyi tanıyor gibi görünse de şu farklar performansı dramatik biçimde değiştirebilir:

  • Nesne boyutu
  • Kameraya göre açısı
  • Görselde kapladığı alan
  • Arka plan karmaşıklığı
  • Gölge ve yansıma
  • Kısmi örtülme

Bu yüzden domain shift, görü sistemlerinde istisna değil; beklenen varsayımdır.

Gerçek Hayat Performansı Nasıl Ölçülmeli?

Gerçek hayat performansı yalnızca test seti metriğiyle ölçülemez. Olgun bir görü projesinde şu katmanlar birlikte düşünülmelidir:

1. Temsil Edici Test Seti

Test verisi yalnızca temiz örneklerden oluşmamalı; gerçek kullanım koşullarını yansıtmalıdır.

2. Slice-Based Evaluation

Performans şu dilimlere göre ayrı izlenmelidir:

  • Işık koşulu
  • Kamera tipi
  • Mesafe
  • Nesne boyutu
  • Arka plan karmaşıklığı
  • Lokasyon
  • Zaman / mevsim
  • Hız / motion blur

3. Rare-Case Evaluation

Nadir ama kritik hata tipleri için ayrı benchmark kurulmalıdır.

4. Business-Weighted Metrics

Her hata aynı öneme sahip değildir. Yanlış negatif mi daha maliyetli, yanlış pozitif mi? Bu soru use-case’e göre yanıtlanmalıdır.

5. Human Review ve Correction Time

Model çıktısının insan düzeltme süresi de gerçek performansın parçasıdır.

6. Production Monitoring

Offline testten sonra performansın üretimde zamanla izlenmesi gerekir.

Vision Projelerinde En Sık Yapılan Değerlendirme Hataları

  1. Temiz ama dar test setiyle yetinmek
  2. Sadece genel accuracy veya mAP raporlamak
  3. Nadir kritik sınıfları ayrı izlememek
  4. Yeni cihaz ve saha verisini testte temsil etmemek
  5. Offline başarıyı production readiness sanmak
  6. Human-in-the-loop etkisini ölçmemek
  7. False positive ve false negative maliyetini eşit kabul etmek
  8. Domain shift’i ancak sistem bozulduktan sonra fark etmek

Domain Shift Nasıl Teşhis Edilir?

Domain shift çoğu zaman tek bir alarm ile değil, belirtiler üzerinden anlaşılır. Aşağıdaki sinyaller özellikle önemlidir:

  • Belirli lokasyonlarda hata artışı
  • Yeni cihaz geldikten sonra kalite düşüşü
  • Belirli saatlerde veya hava koşullarında bozulma
  • Belirli nesne boyutlarında recall kaybı
  • Confidence dağılımında beklenmeyen değişim
  • İnsan müdahalesi oranında artış

Bu sinyalleri anlamlı hale getirmek için production log’ları, örnek görüntü havuzları ve veri slice panoları birlikte kullanılmalıdır.

Veri Kalitesi ve Domain Shift İçin Uygulanabilir Stratejiler

1. Data-Centric Yaklaşım Kur

Model mimarisini değiştirmeden önce veri dilimlerini, etiket kalitesini ve coverage boşluklarını analiz et.

2. Edge-Case Toplama Süreci Tasarla

Nadir ama yüksek maliyetli örnekleri rastlantıya bırakma; bilinçli biçimde topla ve ayrı izle.

3. Slice-Based Dashboard Oluştur

Işık, kamera, lokasyon, nesne boyutu ve zaman bazlı kalite metrikleri standart hale gelsin.

4. Label Audit ve Re-annotation Döngüsü Kur

Özellikle yüksek güvenli yanlışlar ve iş açısından pahalı hatalar düzenli denetlensin.

5. Domain Adaptation ve Fine-Tuning Stratejisi Planla

Yeni saha verisi geldiğinde modeli tamamen sıfırdan kurmak yerine kontrollü uyarlama düşün.

6. Synthetic Data’yı Yardımcı Katman Olarak Kullan

Sentetik veri gerçek verinin yerine değil, coverage boşluğunu desteklemek için kullanılmalı.

7. Human-in-the-Loop Tasarımı Ekle

Yüksek riskli örneklerde modelin tek başına karar vermesi yerine insan doğrulamasıyla hibrit akış kurulmalı.

8. Production Monitoring’i Modelden Ayrı Değil, Modelin Parçası Olarak Düşün

Drift, confidence, misclassification pattern ve saha örnekleri sürekli takip edilmeli.

Görev Türüne Göre Kritik Farklılıklar

Image Classification

Arka plan korelasyonu, kamera açısı ve sınıf dengesizliği çok etkili olabilir. Model nesneyi değil sahne bağlamını öğrenmiş olabilir.

Object Detection

Küçük nesneler, kısmi örtülmeler, yoğun sahneler ve anotasyon eksikleri en sık kırılma alanlarıdır.

Segmentation

Boundary kalitesi, label tutarlılığı ve piksel sınıf dengesizliği belirleyicidir.

Anomaly / Defect Detection

Nadir hata örnekleri, aşırı dengesizlik ve sahte normal varyasyonlar ana zorluktur.

OCR ve Document Vision

Layout farkı, tarama kalitesi, bozuk belge, eğiklik ve dil / font çeşitliliği öne çıkar.

Kurumsal Takımlar için Stratejik Tasarım İlkeleri

1. Vision Kalitesini Model Kalitesiyle Karıştırma

Gerçek sistem kalitesi veri, etiket, deployment ve monitoring ile birlikte oluşur.

2. Test Setini Ürün Demoları İçin Değil, Operasyon Gerçekliği İçin Kur

Temiz test seti güzel görünür; temsil edici test seti ise gerçeği söyler.

3. Domain Shift’i İstisna Değil Varsayılan Kabul Et

Her üretim sistemi zamanla veya ortamla birlikte değişecektir.

4. Nadir Vakaları Ayrı Bir Ürün Gereksinimi Gibi Yönet

İş açısından kritik örnekler genel metriğe gömülmemelidir.

5. Monitoring ve Re-training Döngüsünü Baştan Tasarla

Model çıktıktan sonra değil, model tasarlanırken bakım planı yapılmalıdır.

30-60-90 Günlük Uygulama Çerçevesi

İlk 30 Gün: Veri ve Risk Haritasını Çıkar

  • Veri kaynaklarını kamera, lokasyon, ışık ve senaryo bazında sınıflandır
  • Etiket kalite denetimi yap
  • Hata maliyeti yüksek sınıf ve edge-case’leri belirle

31-60 Gün: Evaluation ve Slice İzleme Katmanını Kur

  • Slice-based benchmark oluştur
  • Rare-case test seti tanımla
  • İş etkisi yüksek metrikleri genel skordan ayır

61-90 Gün: Production Dayanıklılığını İnşa Et

  • Monitoring panosu kur
  • Yeni saha verisi için adaptasyon ve re-labeling süreci tanımla
  • İlk kurumsal vision quality standardını yayınla

Sonuç: Görü Sistemlerinde Gerçek Başarı, Test Seti Başarısından Çok Operasyonel Dayanıklılıktır

Görü sistemlerinde veri kalitesi, domain shift ve gerçek hayat performansı; model geliştirme sürecinin yan başlıkları değil, tam merkezidir. Etiket doğruluğu, örnek çeşitliliği, sınıf dengesi, kamera ve çevre farklılıkları, edge-case kapsaması ve üretim monitoring’i birlikte düşünülmediğinde, yüksek doğruluklu model bile sahada kırılabilir. Bu yüzden güçlü vision sistemi kurmak, sadece görüntüyü tanıyan model eğitmek değil; değişen dünyada tanımaya devam eden sistem tasarlamaktır.

Uzun vadede başarılı ekipler, yalnızca benchmark’ta en iyi modeli kuran ekipler değil; veriyi sürekli iyileştiren, shift’i erken fark eden, kaliteyi veri dilimlerine göre izleyen ve offline başarıyı operasyonel güvenilirliğe dönüştürebilen ekipler olacaktır.

Sık Sorulan Sorular

Veri kalitesi en çok etiket doğruluğu mu demektir?

Hayır. Etiket doğruluğu çok önemlidir; ancak veri temsiliyeti, sınıf dengesi, edge-case kapsaması ve teknik görüntü kalitesi de aynı derecede belirleyicidir.

Domain shift tamamen kaçınılmaz mı?

Büyük ölçüde evet. Ama kaçınılmaz olması yönetilemez olduğu anlamına gelmez. İyi izleme, veri toplama ve adaptasyon stratejileriyle etkisi ciddi biçimde azaltılabilir.

Offline mAP yüksekse sistem üretime hazır sayılır mı?

Hayır. Slice-based kalite, cihaz farkı, nadir örnek performansı ve production monitoring olmadan bu sonuca güvenmek risklidir.

Synthetic data gerçek verinin yerini alabilir mi?

Genellikle tam olarak hayır. En iyi kullanım biçimi, gerçek verideki coverage boşluklarını desteklemek ve belirli varyasyonları artırmaktır.

En güçlü başlangıç adımı nedir?

Çoğu projede en yüksek etki, temsil edici veri seti, slice-based evaluation ve etiket kalite denetimini baştan kurmaktan gelir.

Danismanlik Baglantilari

Bu yaziya en yakin consulting sayfalari

Bu blog iceriginden bir sonraki adima gecmek istersen, en ilgili solution, role ve industry landing'lerini burada gorebilirsin.

Yorumlar

Yorumlar

Görü Sistemlerinde Veri Kalitesi, Domain Shift ve Gerçek Hayat Performansı Nasıl Yönetilir? | Şükrü Yusuf KAYA