İçeriğe geç
Kavram SözlüğüBilgisayarlı Görü

Görsel Soru Cevaplama

Bir görüntüye ilişkin doğal dil sorularını görsel bağlama dayanarak yanıtlayan çok modlu görev.

Görsel soru cevaplama, görsel algı ile dil anlama yeteneklerini birlikte sınayan güçlü bir görevdir. Model, sorudaki dilsel ipuçlarını görüntü içindeki ilgili bölgelere bağlayarak doğru cevabı üretmelidir. Basit nesne tanımanın ötesinde ilişki, sayı, renk, konum ve bazen muhakeme gerektirir. Çok modlu yardımcı sistemler ve etkileşimli görsel asistanlar için temel yapı taşıdır.