İçeriğe geç
Kavram SözlüğüBilgisayarlı Görü

Görüntü-Metin Karşıtsal Öğrenme

İlgili görüntü ve metin çiftlerini ortak uzayda yakınlaştırıp ilgisiz olanları uzaklaştırarak çok modlu temsil öğrenen yaklaşım.

Görüntü-metin karşıtsal öğrenme, modern görü-dil modellerinin en etkili temsil öğrenme stratejilerinden biridir. Bu yapı sayesinde model, görsellerle doğal dil açıklamalarını ortak semantik uzayda ilişkilendirebilir. Zero-shot sınıflandırma, semantik görsel arama ve çok modlu retrieval sistemleri bu temelden beslenir. Büyük ölçekli zayıf etiketli veriyle güçlü genel temsiller öğrenmenin başarılı örneklerinden biridir.