topicadvanced

Vision-Based UI Understanding

Model UI'yi screenshot'tan anlar — DOM olmadan da çalışabilir.

2 saat1 kaynak1 önkoşul

Browser-based agent'lar DOM'a ulaşabilir (HTML query). Ama desktop apps, mobile apps, native software'de DOM yok — vision şart.

Modeller:

Claude 3.5/4 Sonnet — GUI element detection, click coordinate prediction iyi
GPT-4o — benzer kapabilite
OmniParser (Microsoft) — UI element segmentation için fine-tuned, agent'ları feed eder

Pattern: screenshot al → OmniParser ile element bbox'ları çıkar → LLM "tıklamak için bbox 5'i kullan" der → coordinate'leri tıklat.

Önce bunları bil