Multimodal LLM Tarihçesi: Radford 2021 CLIP'ten GPT-4o'ya — 'Görmeyi Öğrenen' Dil Modellerinin Doğuşu
Multimodal LLM'lerin tarihsel ve kavramsal anatomisi: Radford vd. 2021 CLIP paper'ı — contrastive learning ile resim-metin alignment'ın doğuşu, ViT (Dosovitskiy 2020) image transformer, BLIP (Li 2022), Flamingo (Alayrac 2022), LLaVA (Liu 2023) open-source çığır, GPT-4V (Eylül 2023), GPT-4o (Mayıs 2024) unified omni-modal, Llama-3.2 Vision (Eylül 2024) açık-kaynak. 5 yıllık 'dil + görüntü' birleşme yolculuğu ve Türkçe için multimodal ne ifade ediyor (Türkçe doküman OCR, kültürel görsel anlama).
Şükrü Yusuf KAYA
80 dakikalık okuma
İleri👁️ Ocak 2021 — Bir Modelin İlk Defa 'Gördüğü' An
5 Ocak 2021. OpenAI iki paper yayınladı aynı gün: DALL-E 1 (metinden resim üretimi) ve CLIP (resim-metin eşleşmesi). CLIP'in başyazarı Alec Radford (sonradan GPT-2 ve GPT-3'ün de mimari mühendisi olacak). Bu paper geleneksel computer vision'ı yıktı. Önce: 'Bir model 1000 ImageNet sınıfı tanır.' CLIP sonrası: 'Bir model doğal dilde yazılı her görsel kavramı tanır.'
Fikir basit ama radikal: 400 milyon (resim, açıklama) çifti topla web'den. İki encoder eğit — biri resim için, biri metin için — aynı embedding space'te. Contrastive learning ile resim ve onu doğru tanımlayan metin yakınlaştır, yanlış olanları uzaklaştır.
Sonuç: zero-shot ImageNet sınıflaması — fine-tune olmadan! CLIP, sonraki 5 yılın multimodal AI'i için temel taşı oldu.
GPT-4V (Eylül 2023), GPT-4o (Mayıs 2024), Llama-3.2 Vision (Eylül 2024) — hepsinin altında CLIP fikri yatıyor. Bu ders 5 yıllık 'dil + görüntü' birleşmesinin tarihini anlatıyor. 80 dakika sonra: multimodal LLM'lerin niye ve nasıl çalıştığını derinden anlamış olacaksın. Türkçe için pratik anlamı: doküman OCR, kimlik tarama, e-fatura okuma, kültürel görsel anlama.
Bu Derste Neler Var? (13 Bölüm)#
- Pre-CLIP dünyası — niye 'görmek' zordu
- ViT (Dosovitskiy 2020) — resmi transformer'a sokan paper
- Radford vd. 2021 — CLIP: contrastive alignment
- CLIP'in matematiksel anatomisi
- CLIP'in dramatic etkisi — DALL-E, Stable Diffusion, vs.
- BLIP (Li 2022) — caption generation eklenir
- Flamingo (DeepMind 2022) — few-shot multimodal
- LLaVA (Liu 2023) — open-source çığır
- GPT-4V (Eylül 2023) — production multimodal
- GPT-4o (Mayıs 2024) — omni-modal birleşme
- Llama-3.2 Vision (Eylül 2024) — açık-kaynak yetişme
- Türkçe için multimodal — OCR, kültürel görsel
- Egzersizler
1-2. Pre-CLIP Dünyası ve ViT#
1.1 2020 öncesi computer vision#
10 yıl boyunca (2012 AlexNet'ten 2020'ye) bilgisayar görü şu paradigmadaydı:
- Belirli bir görev için belirli bir veri seti topla (ImageNet 1000 sınıf, COCO 80 sınıf, vs.)
- CNN eğit (ResNet, VGG, Inception)
- Yeni görev için yeniden eğit (transfer learning)
Problem: her görev için ayrı çalışma. 'Görsel kavram'lar kapalı kümelerde — model 'doğal dilde' anlatılan şeyleri tanıyamıyor.
1.2 Doğal dil bağlantısı eksikti#
Örnek: bir model 'Burmese cat' fotosunu görür. Eğer ImageNet 'cat' sınıfına denk geliyorsa tanır. Ama 'Burmese cat'in ne olduğunu anlamaz — sadece 'cat' diyebilir.
İnsan 'Burmese cat, kahverengi kürkü olan bir kedi türü' diye okuyup öğrenebilir. Modelin böyle bir şansı yoktu.
Bu, 'closed-world vs open-world' problem.
2.1 ViT (Vision Transformer, Dosovitskiy 2020)#
Ekim 2020. Google Brain'den Dosovitskiy ve ekibi.
'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale'
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, ..., Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
Google Brain, ICLR 2021
Fikir: resmi 16x16 piksel patch'lere böl. Her patch'i bir 'token' gibi düşün. Standard transformer encoder uygula.
Matematik:
Image 224×224 → 14×14 = 196 patches (16×16 each) Each patch → linear projection → token embedding (768-dim) Add positional embedding Standard transformer (12 layer, 12 head)
2.2 ViT'in başarısı#
ImageNet:
- ResNet-152 (2015 CNN): %78.6
- ViT-Large (2020): %85.3
'Transformer'lar görüntüde de CNN'leri geçti.' Bu, multimodal'ın ön koşulu — çünkü artık dil ve görüntü aynı mimarinin üzerinde işlenebilir.
3-4. CLIP Matematik Anatomi#
3.1 CLIP paper#
'Learning Transferable Visual Models From Natural Language Supervision'
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, ..., Jack Clark, Gretchen Krueger, Ilya Sutskever
OpenAI, 5 Ocak 2021
İki encoder:
- Image encoder (ResNet veya ViT): resim → image embedding
- Text encoder (transformer): metin → text embedding
İki encoder aynı boyutta vektör çıkartır (örn 512-dim).
3.2 Training: Contrastive Loss#
400M (resim, açıklama) çifti web'den toplandı (alt-text + caption).
Batch içinde N=32K çift varsa:
image_features = ImageEncoder(images) # [N, 512] text_features = TextEncoder(texts) # [N, 512] # Normalize (L2) image_features = image_features / ||image_features|| text_features = text_features / ||text_features|| # Similarity matrix logits = image_features @ text_features.T # [N, N] # logits[i, j] = similarity between image_i and text_j # Loss: doğru çiftler köşegende olmalı labels = [0, 1, 2, ..., N-1] # i-th image matches i-th text loss_i = CrossEntropy(logits, labels) # image → text loss loss_t = CrossEntropy(logits.T, labels) # text → image loss loss = (loss_i + loss_t) / 2
İki yönlü contrastive: hem 'doğru text'i seç (image given) hem 'doğru image'i seç (text given).
3.3 Niye contrastive iyi?#
Çok sayıda örnek: batch içinde N=32K çift varsa, her image için N-1 negatif örnek. Dramatic 'hard negatives'.
Açık kavramlar: 'Burmese cat' metin olarak yazılınca, model bu kavramı görüntü ile eşleştirir. Closed-world (1000 sınıf) → open-world (her metin).
Zero-shot: yeni bir görev için fine-tune gerek değil. 'A photo of a [class]' template ile herhangi bir görsel sınıflama yapılabilir.
4.1 CLIP'in dramatik etkisi#
ImageNet zero-shot:
- Random baseline: %0.1 (1/1000)
- CLIP: %76 (fine-tune'lu ResNet-50 seviyesi, hiç ImageNet görmeden!)
31 farklı dataset'te ortalama:
- CLIP zero-shot: ResNet-50 (her dataset için ayrı fine-tune'lu) ile comparable
Bu, paradigma değişimi. 'Görmek için her görev için ayrı veri toplamana gerek yok.'
5-11. CLIP Sonrası — BLIP, Flamingo, LLaVA, GPT-4V/4o#
5.1 CLIP'in türevleri (2021-2022)#
CLIP'in etkisi 1 yıl içinde her yerde:
DALL-E (Ocak 2021, OpenAI): CLIP loss'unu kullanan ilk diffusion-tarzı text-to-image model.
Stable Diffusion (Ağustos 2022, Stability AI): CLIP text encoder'ını kullanan açık-kaynak diffusion. Cumartesi gecesi internet patladı.
Imagen (2022, Google): T5 text encoder + diffusion (CLIP yerine T5 ama benzer fikir).
5.2 BLIP (Li vd. 2022)#
'BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation'
Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi
Salesforce, ICML 2022
Fikir: CLIP sadece alignment öğretiyor (eşleşme). BLIP ekler: caption generation (resmin açıklamasını yaz).
Mimari: Image encoder + Text encoder + Image-conditioned text decoder.
3 görev birlikte eğitilir:
- Contrastive (CLIP-tarzı)
- Image-Text Matching (binary classification)
- Caption Generation (autoregressive)
BLIP-2 (2023): LLM'e bağlanabilir 'Q-Former' adapter — pre-trained LLM'i 'görme' yetisi ile augment eder.
6.1 Flamingo (DeepMind 2022)#
'Flamingo: a Visual Language Model for Few-Shot Learning'
Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, ...
DeepMind, NeurIPS 2022
Fikir: pre-trained vision encoder (CLIP benzeri) + pre-trained LLM. İkisini 'cross-attention' ile birleştir. Mid-layer'da görüntü bilgisini LLM'e enjekte et.
Key insight: few-shot multimodal learning. Sadece birkaç (görüntü, soru, cevap) örneği prompt'a koyup yeni soruyu çözebilir.
DeepMind kapalı tuttu (model release etmedi) — open-source community 6 ay sonra LLaVA ile yetişti.
7.1 LLaVA (Liu vd. 2023) — Açık-Kaynak Çığır#
'Visual Instruction Tuning'
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
University of Wisconsin-Madison + Microsoft, NeurIPS 2023
Nisan 2023. Akademik bir paper, ama etki büyük: ilk gerçekten kullanılabilir açık-kaynak multimodal LLM.
Mimari (basitleştirilmiş):
Image → CLIP-ViT encoder → vision features vision features → linear projection → image tokens (LLaMA-uyumlu) image tokens + text tokens → LLaMA decoder → text output
Key innovation: GPT-4 ile sentetik visual instruction data üret. ImageNet image'ları + bounding box → 'bu resmin sorusu ve cevabı' GPT-4'e ürettir. 150K instruction.
LLaVA-1.5, LLaVA-Next, LLaVA-OneVision (2024) — sürekli iyileşme. Açık-kaynak multimodal'ın anchor'ı.
8.1 GPT-4V (Eylül 2023)#
OpenAI sessizce GPT-4V'yi yayınladı. 'V' = Vision.
Kalite: çığır. Karmaşık görüntüler, OCR, chart analizi, soyut görsel reasoning. Akademik benchmark'larda LLaVA'yı 2-3× geçti.
Nasıl çalıştığı açıklanmadı, ama tahminler:
- GPT-4 base + CLIP veya benzer image encoder
- 'Cross-attention' Flamingo benzeri
- Çok büyük visual instruction tuning data
9.1 GPT-4o (Mayıs 2024) — Omni-Modal Birleşme#
13 Mayıs 2024. OpenAI o4o (omni) tanıttı.
Yenilik: text + image + audio aynı modelde. Önceki versiyonlar: GPT-4V resim, Whisper ses ayrı modeller. GPT-4o hepsi tek model.
Real-time voice mode: 200ms latency. Konuşma → metin → konuşma değil, tamamen end-to-end audio. Önemli — model artık 'tek modaliteden' değil, 'concept' uzayında düşünüyor.
Production kalite muazzam. Ama detay yine kapalı.
10.1 Llama-3.2 Vision (Eylül 2024)#
Meta yetiştirdi. Llama-3.2-11B-Vision ve 90B-Vision yayınladı.
Mimari (paper'dan):
- Pre-trained Llama-3.1 (text) + image encoder
- Cross-attention layers between vision and text
- 6 trilyon (image, text) çifti üzerinde pre-training
- Türkçe dahil 7 büyük dil için optimize
Kalite GPT-4V seviyesinde (bazı benchmark'larda hâlâ altta).
Önemi: açık-kaynak production multimodal. Self-host edilebilir, fine-tune edilebilir, KVKK uyumlu deploy mümkün.
12. Türkçe için Multimodal#
12.1 Türkçe-spesifik kullanım alanları#
OCR + anlama:
- Türkçe kimlik kartı + ehliyet otomatik okuma (banks, telcos)
- Türkçe fatura + makbuz işleme (muhasebe)
- Türkçe sınav kağıdı dijitalleştirme (eğitim)
- Eski Türkçe / Osmanlıca belgeleri okuma (kütüphaneler, akademik)
Kültürel görsel anlama:
- Türk yemekleri tanıma + tarif (Aşçı Bot)
- Türkçe trafik işaretleri
- İslami sanat motifleri analizi (müzecilik)
- Yöresel kıyafetler tanıma
Pratik iş:
- E-ticaret ürün foto analizi (Türkçe açıklama)
- Emlak fotoğrafı + açıklama üretimi
- Sağlık görüntüsü + Türkçe rapor (radyoloji destek — uzman onayıyla)
12.2 Model seçimi (2025 itibarıyla)#
API erişim:
- GPT-4o: Türkçe görüntü + metin en iyi kalite, 10/1M
- Claude 3.5 Sonnet (Vision): GPT-4o ile başa baş, 15/1M
- Gemini 1.5 Pro: video destek (Türkçe ses transkripsiyon), 5/1M
Self-host:
- Llama-3.2-11B-Vision: 1× H100 + 16GB free for context (RTX 4090 ile sınırda)
- LLaVA-1.6 Mistral-7B: hafif, RTX 4090'da rahat
- Qwen2-VL (Alibaba): multilingual, Türkçe OK
12.3 Türkçe kalite gözlemleri#
2024 sonu empirik test (Türkçe document understanding):
- GPT-4o: %92 accuracy (Türkçe kimlik OCR + alan çıkarma)
- Claude 3.5 Sonnet: %88
- Llama-3.2-11B-Vision: %72
- Llama-3.2-90B-Vision: %85
- LLaVA-1.6: %60
Production Türkçe doküman processing için: GPT-4o veya Llama-3.2-90B-Vision (KVKK için).
12.4 Türkçe için fine-tune gereksinimi#
Genelde gerek yok — bu modeller multilingual training ile Türkçe'yi doğal olarak destekliyor.
İstisnalar:
- Spesifik domain (Türkçe radyoloji, eski Osmanlıca, vs.)
- Çok hassas KVKK ortamı (self-host + Türkçe DPO fine-tune)
Fine-tune yöntemi: Modül 15.6 + Modül 18.4 capstone benzeri — Türkçe multimodal preference dataset oluştur, DPO.
✅ Ders 19.1 Özeti — Multimodal Tarihçesi
5 yıllık 'dil + görüntü' birleşmesi: ViT 2020 (resmi transformer'a soktu) → CLIP 2021 (contrastive resim-metin alignment, paradigma değişimi) → BLIP 2022 (caption generation) → Flamingo 2022 (few-shot multimodal) → LLaVA 2023 (açık-kaynak çığır) → GPT-4V Eylül 2023 → GPT-4o Mayıs 2024 (omni-modal birleşme) → Llama-3.2 Vision Eylül 2024 (açık-kaynak production). Türkçe için kullanım: kimlik OCR, e-fatura, kültürel görsel. Model seçimi: GPT-4o (API), Llama-3.2-90B-Vision (self-host, KVKK). Sonraki ders: multimodal mimari matematiği — vision encoder, projection, cross-attention.
Sonraki Ders: Multimodal Mimari Matematiği#
Ders 19.2'de multimodal LLM'lerin iç mimari matematiği. Vision encoder (ViT veya CLIP) çıkışı LLM'e nasıl bağlanır? Linear projection vs Q-Former vs cross-attention. Image token sayısı (576 patches typical), token budget management. PyTorch'ta sıfırdan LLaVA-tarzı mimari. Türkçe için image-text alignment.
Sık Sorulan Sorular
CLIP hâlâ **etkin**, ama 2024'te alternatif kuvvetli:
**CLIP (orijinal 2021)**:
- 400M (image, text) çift, ResNet veya ViT encoder
- Open-source, herkes kullanıyor
- Diffusion models'in (SD) text encoder olarak hâlâ baskın
**Alternatifler 2024**:
- **SigLIP** (Google 2023): CLIP'in sigmoid loss varyantı, daha iyi quality
- **EVA-CLIP** (BAAI 2023): %25 daha iyi ImageNet zero-shot
- **DFN-CLIP** (Apple 2023): data filtering ile daha iyi
**Production tercihi**:
- LLM'e bağlanan vision encoder: SigLIP (Llama-3.2 Vision kullanıyor)
- Text-to-image diffusion: CLIP (Stable Diffusion 1.5)
- Yeni projeler: SigLIP veya EVA-CLIP
CLIP hâlâ 'lingua franca'. Ama state-of-the-art SigLIP veya türevi.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu