Tüm roadmap'e dön
topicadvanced
Vision-Based UI Understanding
Model UI'yi screenshot'tan anlar — DOM olmadan da çalışabilir.
2 saat1 kaynak1 önkoşul
Browser-based agent'lar DOM'a ulaşabilir (HTML query). Ama desktop apps, mobile apps, native software'de DOM yok — vision şart.
Modeller:
- Claude 3.5/4 Sonnet — GUI element detection, click coordinate prediction iyi
- GPT-4o — benzer kapabilite
- OmniParser (Microsoft) — UI element segmentation için fine-tuned, agent'ları feed eder
Pattern: screenshot al → OmniParser ile element bbox'ları çıkar → LLM "tıklamak için bbox 5'i kullan" der → coordinate'leri tıklat.