Kavram SözlüğüBilgisayarlı Görü
Görsel Soru Cevaplama
Bir görüntüye ilişkin doğal dil sorularını görsel bağlama dayanarak yanıtlayan çok modlu görev.
Görsel soru cevaplama, görsel algı ile dil anlama yeteneklerini birlikte sınayan güçlü bir görevdir. Model, sorudaki dilsel ipuçlarını görüntü içindeki ilgili bölgelere bağlayarak doğru cevabı üretmelidir. Basit nesne tanımanın ötesinde ilişki, sayı, renk, konum ve bazen muhakeme gerektirir. Çok modlu yardımcı sistemler ve etkileşimli görsel asistanlar için temel yapı taşıdır.
İlginizi Çekebilir
Yapay zeka yolculuğunuza devam etmek için bu kavramlara da göz atabilirsiniz.
