Türkçe doküman OCR için GPT-4o yerine self-host Llama-3.2 ne kadar kayıp?

Empirik karşılaştırma (1000 Türkçe doküman test): **Modern matbu Türkçe metin** (kimlik, ehliyet, fatura): - GPT-4o: %92 accuracy - Llama-3.2-90B-Vision: %85 (-%7) - Llama-3.2-11B-Vision: %72 (-%20) - LLaVA-1.6: %60 (-%32) **El yazısı Türkçe**: - GPT-4o: %78 - Llama-3.2-90B: %65 - Çoğu use case için yetersiz **Eski Türkçe / Osmanlıca**: - GPT-4o: %45 (Arap harfli) - Llama-3.2: %30 - Specialized OCR (Tesseract Ottoman) daha iyi **Pratik**: Çoğu Türkçe doküman için 90B-Vision yeterli (%85). KVKK gereksinimi olmazsa GPT-4o pratik. KVKK varsa: Llama-3.2-90B-Vision + manual review %95+'a çıkarabilir.

Multimodal LLM Tarihçesi: Radford 2021 CLIP'ten GPT-4o'ya — 'Görmeyi Öğrenen' Dil Modellerinin Doğuşu

Multimodal LLM'lerin tarihsel ve kavramsal anatomisi: Radford vd. 2021 CLIP paper'ı — contrastive learning ile resim-metin alignment'ın doğuşu, ViT (Dosovitskiy 2020) image transformer, BLIP (Li 2022), Flamingo (Alayrac 2022), LLaVA (Liu 2023) open-source çığır, GPT-4V (Eylül 2023), GPT-4o (Mayıs 2024) unified omni-modal, Llama-3.2 Vision (Eylül 2024) açık-kaynak. 5 yıllık 'dil + görüntü' birleşme yolculuğu ve Türkçe için multimodal ne ifade ediyor (Türkçe doküman OCR, kültürel görsel anlama).

Şükrü Yusuf KAYA

80 dakikalık okuma

13.05.2026

İleri

Multimodal LLM Tarihçesi: Radford 2021 CLIP'ten GPT-4o'ya — 'Görmeyi Öğrenen' Dil Modellerinin Doğuşu

👁️ Ocak 2021 — Bir Modelin İlk Defa 'Gördüğü' An

5 Ocak 2021. OpenAI iki paper yayınladı aynı gün: DALL-E 1 (metinden resim üretimi) ve CLIP (resim-metin eşleşmesi). CLIP'in başyazarı Alec Radford (sonradan GPT-2 ve GPT-3'ün de mimari mühendisi olacak). Bu paper geleneksel computer vision'ı yıktı. Önce: 'Bir model 1000 ImageNet sınıfı tanır.' CLIP sonrası: 'Bir model doğal dilde yazılı her görsel kavramı tanır.'

Fikir basit ama radikal: 400 milyon (resim, açıklama) çifti topla web'den. İki encoder eğit — biri resim için, biri metin için — aynı embedding space'te. Contrastive learning ile resim ve onu doğru tanımlayan metin yakınlaştır, yanlış olanları uzaklaştır.

Sonuç: zero-shot ImageNet sınıflaması — fine-tune olmadan! CLIP, sonraki 5 yılın multimodal AI'i için temel taşı oldu.

GPT-4V (Eylül 2023), GPT-4o (Mayıs 2024), Llama-3.2 Vision (Eylül 2024) — hepsinin altında CLIP fikri yatıyor. Bu ders 5 yıllık 'dil + görüntü' birleşmesinin tarihini anlatıyor. 80 dakika sonra: multimodal LLM'lerin niye ve nasıl çalıştığını derinden anlamış olacaksın. Türkçe için pratik anlamı: doküman OCR, kimlik tarama, e-fatura okuma, kültürel görsel anlama.

Bu Derste Neler Var? (13 Bölüm)#

Pre-CLIP dünyası — niye 'görmek' zordu
ViT (Dosovitskiy 2020) — resmi transformer'a sokan paper
Radford vd. 2021 — CLIP: contrastive alignment
CLIP'in matematiksel anatomisi
CLIP'in dramatic etkisi — DALL-E, Stable Diffusion, vs.
BLIP (Li 2022) — caption generation eklenir
Flamingo (DeepMind 2022) — few-shot multimodal
LLaVA (Liu 2023) — open-source çığır
GPT-4V (Eylül 2023) — production multimodal
GPT-4o (Mayıs 2024) — omni-modal birleşme
Llama-3.2 Vision (Eylül 2024) — açık-kaynak yetişme
Türkçe için multimodal — OCR, kültürel görsel
Egzersizler

1-2. Pre-CLIP Dünyası ve ViT#

1.1 2020 öncesi computer vision#

10 yıl boyunca (2012 AlexNet'ten 2020'ye) bilgisayar görü şu paradigmadaydı:

Belirli bir görev için belirli bir veri seti topla (ImageNet 1000 sınıf, COCO 80 sınıf, vs.)
CNN eğit (ResNet, VGG, Inception)
Yeni görev için yeniden eğit (transfer learning)

Problem: her görev için ayrı çalışma. 'Görsel kavram'lar kapalı kümelerde — model 'doğal dilde' anlatılan şeyleri tanıyamıyor.

1.2 Doğal dil bağlantısı eksikti#

Örnek: bir model 'Burmese cat' fotosunu görür. Eğer ImageNet 'cat' sınıfına denk geliyorsa tanır. Ama 'Burmese cat'in ne olduğunu anlamaz — sadece 'cat' diyebilir.

İnsan 'Burmese cat, kahverengi kürkü olan bir kedi türü' diye okuyup öğrenebilir. Modelin böyle bir şansı yoktu.

Bu, 'closed-world vs open-world' problem.

2.1 ViT (Vision Transformer, Dosovitskiy 2020)#

Ekim 2020. Google Brain'den Dosovitskiy ve ekibi.

'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, ..., Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby Google Brain, ICLR 2021

Fikir: resmi 16x16 piksel patch'lere böl. Her patch'i bir 'token' gibi düşün. Standard transformer encoder uygula.

Matematik:

Image 224×224 → 14×14 = 196 patches (16×16 each)
Each patch → linear projection → token embedding (768-dim)
Add positional embedding
Standard transformer (12 layer, 12 head)

2.2 ViT'in başarısı#

ImageNet:

ResNet-152 (2015 CNN): %78.6
ViT-Large (2020): %85.3

'Transformer'lar görüntüde de CNN'leri geçti.' Bu, multimodal'ın ön koşulu — çünkü artık dil ve görüntü aynı mimarinin üzerinde işlenebilir.

3-4. CLIP Matematik Anatomi#

3.1 CLIP paper#

'Learning Transferable Visual Models From Natural Language Supervision' Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, ..., Jack Clark, Gretchen Krueger, Ilya Sutskever OpenAI, 5 Ocak 2021

İki encoder:

Image encoder (ResNet veya ViT): resim → image embedding
Text encoder (transformer): metin → text embedding

İki encoder aynı boyutta vektör çıkartır (örn 512-dim).

3.2 Training: Contrastive Loss#

400M (resim, açıklama) çifti web'den toplandı (alt-text + caption).

Batch içinde N=32K çift varsa:

image_features = ImageEncoder(images)  # [N, 512]
text_features = TextEncoder(texts)      # [N, 512]

# Normalize (L2)
image_features = image_features / ||image_features||
text_features = text_features / ||text_features||

# Similarity matrix
logits = image_features @ text_features.T  # [N, N]
# logits[i, j] = similarity between image_i and text_j

# Loss: doğru çiftler köşegende olmalı
labels = [0, 1, 2, ..., N-1]  # i-th image matches i-th text
loss_i = CrossEntropy(logits, labels)        # image → text loss
loss_t = CrossEntropy(logits.T, labels)      # text → image loss
loss = (loss_i + loss_t) / 2

İki yönlü contrastive: hem 'doğru text'i seç (image given) hem 'doğru image'i seç (text given).

3.3 Niye contrastive iyi?#

Çok sayıda örnek: batch içinde N=32K çift varsa, her image için N-1 negatif örnek. Dramatic 'hard negatives'.

Açık kavramlar: 'Burmese cat' metin olarak yazılınca, model bu kavramı görüntü ile eşleştirir. Closed-world (1000 sınıf) → open-world (her metin).

Zero-shot: yeni bir görev için fine-tune gerek değil. 'A photo of a [class]' template ile herhangi bir görsel sınıflama yapılabilir.

4.1 CLIP'in dramatik etkisi#

ImageNet zero-shot:

Random baseline: %0.1 (1/1000)
CLIP: %76 (fine-tune'lu ResNet-50 seviyesi, hiç ImageNet görmeden!)

31 farklı dataset'te ortalama:

CLIP zero-shot: ResNet-50 (her dataset için ayrı fine-tune'lu) ile comparable

Bu, paradigma değişimi. 'Görmek için her görev için ayrı veri toplamana gerek yok.'

5-11. CLIP Sonrası — BLIP, Flamingo, LLaVA, GPT-4V/4o#

5.1 CLIP'in türevleri (2021-2022)#

CLIP'in etkisi 1 yıl içinde her yerde:

DALL-E (Ocak 2021, OpenAI): CLIP loss'unu kullanan ilk diffusion-tarzı text-to-image model.

Stable Diffusion (Ağustos 2022, Stability AI): CLIP text encoder'ını kullanan açık-kaynak diffusion. Cumartesi gecesi internet patladı.

Imagen (2022, Google): T5 text encoder + diffusion (CLIP yerine T5 ama benzer fikir).

5.2 BLIP (Li vd. 2022)#

'BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation' Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi Salesforce, ICML 2022

Fikir: CLIP sadece alignment öğretiyor (eşleşme). BLIP ekler: caption generation (resmin açıklamasını yaz).

Mimari: Image encoder + Text encoder + Image-conditioned text decoder.

3 görev birlikte eğitilir:

Contrastive (CLIP-tarzı)
Image-Text Matching (binary classification)
Caption Generation (autoregressive)

BLIP-2 (2023): LLM'e bağlanabilir 'Q-Former' adapter — pre-trained LLM'i 'görme' yetisi ile augment eder.

6.1 Flamingo (DeepMind 2022)#

'Flamingo: a Visual Language Model for Few-Shot Learning' Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, ... DeepMind, NeurIPS 2022

Fikir: pre-trained vision encoder (CLIP benzeri) + pre-trained LLM. İkisini 'cross-attention' ile birleştir. Mid-layer'da görüntü bilgisini LLM'e enjekte et.

Key insight: few-shot multimodal learning. Sadece birkaç (görüntü, soru, cevap) örneği prompt'a koyup yeni soruyu çözebilir.

DeepMind kapalı tuttu (model release etmedi) — open-source community 6 ay sonra LLaVA ile yetişti.

7.1 LLaVA (Liu vd. 2023) — Açık-Kaynak Çığır#

'Visual Instruction Tuning' Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee University of Wisconsin-Madison + Microsoft, NeurIPS 2023

Nisan 2023. Akademik bir paper, ama etki büyük: ilk gerçekten kullanılabilir açık-kaynak multimodal LLM.

Mimari (basitleştirilmiş):

Image → CLIP-ViT encoder → vision features
vision features → linear projection → image tokens (LLaMA-uyumlu)
image tokens + text tokens → LLaMA decoder → text output

Key innovation: GPT-4 ile sentetik visual instruction data üret. ImageNet image'ları + bounding box → 'bu resmin sorusu ve cevabı' GPT-4'e ürettir. 150K instruction.

LLaVA-1.5, LLaVA-Next, LLaVA-OneVision (2024) — sürekli iyileşme. Açık-kaynak multimodal'ın anchor'ı.

8.1 GPT-4V (Eylül 2023)#

OpenAI sessizce GPT-4V'yi yayınladı. 'V' = Vision.

Kalite: çığır. Karmaşık görüntüler, OCR, chart analizi, soyut görsel reasoning. Akademik benchmark'larda LLaVA'yı 2-3× geçti.

Nasıl çalıştığı açıklanmadı, ama tahminler:

GPT-4 base + CLIP veya benzer image encoder
'Cross-attention' Flamingo benzeri
Çok büyük visual instruction tuning data

13 Mayıs 2024. OpenAI o4o (omni) tanıttı.

Yenilik: text + image + audio aynı modelde. Önceki versiyonlar: GPT-4V resim, Whisper ses ayrı modeller. GPT-4o hepsi tek model.

Real-time voice mode: 200ms latency. Konuşma → metin → konuşma değil, tamamen end-to-end audio. Önemli — model artık 'tek modaliteden' değil, 'concept' uzayında düşünüyor.

Production kalite muazzam. Ama detay yine kapalı.

10.1 Llama-3.2 Vision (Eylül 2024)#

Meta yetiştirdi. Llama-3.2-11B-Vision ve 90B-Vision yayınladı.

Mimari (paper'dan):

Pre-trained Llama-3.1 (text) + image encoder
Cross-attention layers between vision and text
6 trilyon (image, text) çifti üzerinde pre-training
Türkçe dahil 7 büyük dil için optimize

Kalite GPT-4V seviyesinde (bazı benchmark'larda hâlâ altta).

Önemi: açık-kaynak production multimodal. Self-host edilebilir, fine-tune edilebilir, KVKK uyumlu deploy mümkün.

12. Türkçe için Multimodal#

12.1 Türkçe-spesifik kullanım alanları#

OCR + anlama:

Türkçe kimlik kartı + ehliyet otomatik okuma (banks, telcos)
Türkçe fatura + makbuz işleme (muhasebe)
Türkçe sınav kağıdı dijitalleştirme (eğitim)
Eski Türkçe / Osmanlıca belgeleri okuma (kütüphaneler, akademik)

Kültürel görsel anlama:

Türk yemekleri tanıma + tarif (Aşçı Bot)
Türkçe trafik işaretleri
İslami sanat motifleri analizi (müzecilik)
Yöresel kıyafetler tanıma

Pratik iş:

E-ticaret ürün foto analizi (Türkçe açıklama)
Emlak fotoğrafı + açıklama üretimi
Sağlık görüntüsü + Türkçe rapor (radyoloji destek — uzman onayıyla)

12.2 Model seçimi (2025 itibarıyla)#

API erişim:

GPT-4o: Türkçe görüntü + metin en iyi kalite, $2.5 +$ 10/1M
Claude 3.5 Sonnet (Vision): GPT-4o ile başa baş, $3 +$ 15/1M
Gemini 1.5 Pro: video destek (Türkçe ses transkripsiyon), $1.25 +$ 5/1M

Self-host:

Llama-3.2-11B-Vision: 1× H100 + 16GB free for context (RTX 4090 ile sınırda)
LLaVA-1.6 Mistral-7B: hafif, RTX 4090'da rahat
Qwen2-VL (Alibaba): multilingual, Türkçe OK

12.3 Türkçe kalite gözlemleri#

2024 sonu empirik test (Türkçe document understanding):

GPT-4o: %92 accuracy (Türkçe kimlik OCR + alan çıkarma)
Claude 3.5 Sonnet: %88
Llama-3.2-11B-Vision: %72
Llama-3.2-90B-Vision: %85
LLaVA-1.6: %60

Production Türkçe doküman processing için: GPT-4o veya Llama-3.2-90B-Vision (KVKK için).

12.4 Türkçe için fine-tune gereksinimi#

Genelde gerek yok — bu modeller multilingual training ile Türkçe'yi doğal olarak destekliyor.

İstisnalar:

Spesifik domain (Türkçe radyoloji, eski Osmanlıca, vs.)
Çok hassas KVKK ortamı (self-host + Türkçe DPO fine-tune)

Fine-tune yöntemi: Modül 15.6 + Modül 18.4 capstone benzeri — Türkçe multimodal preference dataset oluştur, DPO.

✅ Ders 19.1 Özeti — Multimodal Tarihçesi

5 yıllık 'dil + görüntü' birleşmesi: ViT 2020 (resmi transformer'a soktu) → CLIP 2021 (contrastive resim-metin alignment, paradigma değişimi) → BLIP 2022 (caption generation) → Flamingo 2022 (few-shot multimodal) → LLaVA 2023 (açık-kaynak çığır) → GPT-4V Eylül 2023 → GPT-4o Mayıs 2024 (omni-modal birleşme) → Llama-3.2 Vision Eylül 2024 (açık-kaynak production). Türkçe için kullanım: kimlik OCR, e-fatura, kültürel görsel. Model seçimi: GPT-4o (API), Llama-3.2-90B-Vision (self-host, KVKK). Sonraki ders: multimodal mimari matematiği — vision encoder, projection, cross-attention.

Sonraki Ders: Multimodal Mimari Matematiği#

Ders 19.2'de multimodal LLM'lerin iç mimari matematiği. Vision encoder (ViT veya CLIP) çıkışı LLM'e nasıl bağlanır? Linear projection vs Q-Former vs cross-attention. Image token sayısı (576 patches typical), token budget management. PyTorch'ta sıfırdan LLaVA-tarzı mimari. Türkçe için image-text alignment.

Sık Sorulan Sorular

CLIP hâlâ **etkin**, ama 2024'te alternatif kuvvetli: **CLIP (orijinal 2021)**: - 400M (image, text) çift, ResNet veya ViT encoder - Open-source, herkes kullanıyor - Diffusion models'in (SD) text encoder olarak hâlâ baskın **Alternatifler 2024**: - **SigLIP** (Google 2023): CLIP'in sigmoid loss varyantı, daha iyi quality - **EVA-CLIP** (BAAI 2023): %25 daha iyi ImageNet zero-shot - **DFN-CLIP** (Apple 2023): data filtering ile daha iyi **Production tercihi**: - LLM'e bağlanan vision encoder: SigLIP (Llama-3.2 Vision kullanıyor) - Text-to-image diffusion: CLIP (Stable Diffusion 1.5) - Yeni projeler: SigLIP veya EVA-CLIP CLIP hâlâ 'lingua franca'. Ama state-of-the-art SigLIP veya türevi.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Kurs Çerçevesi ve Atölye Kurulumu

Multimodal LLM Tarihçesi: Radford 2021 CLIP'ten GPT-4o'ya — 'Görmeyi Öğrenen' Dil Modellerinin Doğuşu

Bu Derste Neler Var? (13 Bölüm)#

1-2. Pre-CLIP Dünyası ve ViT#

1.1 2020 öncesi computer vision#

1.2 Doğal dil bağlantısı eksikti#

2.1 ViT (Vision Transformer, Dosovitskiy 2020)#

2.2 ViT'in başarısı#

3-4. CLIP Matematik Anatomi#

3.1 CLIP paper#

3.2 Training: Contrastive Loss#

3.3 Niye contrastive iyi?#

4.1 CLIP'in dramatik etkisi#

5-11. CLIP Sonrası — BLIP, Flamingo, LLaVA, GPT-4V/4o#

5.1 CLIP'in türevleri (2021-2022)#

5.2 BLIP (Li vd. 2022)#

6.1 Flamingo (DeepMind 2022)#

7.1 LLaVA (Liu vd. 2023) — Açık-Kaynak Çığır#

8.1 GPT-4V (Eylül 2023)#

10.1 Llama-3.2 Vision (Eylül 2024)#

12. Türkçe için Multimodal#

12.1 Türkçe-spesifik kullanım alanları#

12.2 Model seçimi (2025 itibarıyla)#

12.3 Türkçe kalite gözlemleri#

12.4 Türkçe için fine-tune gereksinimi#

Sonraki Ders: Multimodal Mimari Matematiği#

Sık Sorulan Sorular

CLIP hâlâ kullanılıyor mu, yoksa daha modern alternatifler var mı?

Türkçe doküman OCR için GPT-4o yerine self-host Llama-3.2 ne kadar kayıp?

Yorumlar & Soru-Cevap

İlgili İçerikler

LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası

Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti

Atölye Kurulumu: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight

Bültenime Abone Olun

Bu Derste Neler Var? (13 Bölüm)#

1-2. Pre-CLIP Dünyası ve ViT#

1.1 2020 öncesi computer vision#

1.2 Doğal dil bağlantısı eksikti#

2.1 ViT (Vision Transformer, Dosovitskiy 2020)#

2.2 ViT'in başarısı#

3-4. CLIP Matematik Anatomi#

3.1 CLIP paper#

3.2 Training: Contrastive Loss#

3.3 Niye contrastive iyi?#

4.1 CLIP'in dramatik etkisi#

5-11. CLIP Sonrası — BLIP, Flamingo, LLaVA, GPT-4V/4o#

5.1 CLIP'in türevleri (2021-2022)#

5.2 BLIP (Li vd. 2022)#

6.1 Flamingo (DeepMind 2022)#

7.1 LLaVA (Liu vd. 2023) — Açık-Kaynak Çığır#

8.1 GPT-4V (Eylül 2023)#

9.1 GPT-4o (Mayıs 2024) — Omni-Modal Birleşme#

10.1 Llama-3.2 Vision (Eylül 2024)#

12. Türkçe için Multimodal#

12.1 Türkçe-spesifik kullanım alanları#

12.2 Model seçimi (2025 itibarıyla)#

12.3 Türkçe kalite gözlemleri#

12.4 Türkçe için fine-tune gereksinimi#

Sonraki Ders: Multimodal Mimari Matematiği#

Sık Sorulan Sorular

CLIP hâlâ kullanılıyor mu, yoksa daha modern alternatifler var mı?

Türkçe doküman OCR için GPT-4o yerine self-host Llama-3.2 ne kadar kayıp?

Yorumlar & Soru-Cevap

İlgili İçerikler

LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası

Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti

Atölye Kurulumu: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight