# Vision-Language Models: From CLIP to GPT-4o — Image Encoder + LLM Fusion

> Source: https://sukruyusufkaya.com/en/learn/llm-muhendisligi/vision-language-models-clip-gpt-4o-llama-vision
> Updated: 2026-05-13T12:28:50.176Z
> Category: LLM Mühendisliği
> Module: Module 19: Multimodal LLMs — Vision + Audio + Video
**TLDR:** Vision-Language Models (VLM) anatomy: CLIP (Radford 2021) image-text alignment, image patch embedding (ViT), projection layer to LLM, GPT-4V (Sept 2023), GPT-4o (May 2024) unified, Llama-3.2 Vision (Sept 2024) open-source. Architecture: image encoder + projection + LLM. Turkish multimodal practice.