Skip to content

Vision: Görsel Anlama, OCR, Schema-driven Extraction

Modern LLM'lerin görsel anlama yetisi. Photo description, OCR, görsel sınıflandırma, schema-driven extraction.

Şükrü Yusuf KAYA
11 min read
Advanced

Vision: Görsel Anlama

Modern LLM'ler görsel + metin birlikte işler. Claude (vision), GPT-4o, Gemini 2.5 Pro destekliyor.
python
# Vision LLM kullanımı
import os, base64
from anthropic import Anthropic
from dotenv import load_dotenv
load_dotenv()
 
client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))
 
with open("image.jpg", "rb") as f:
img_b64 = base64.standard_b64encode(f.read()).decode()
 
r = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1000,
messages=[{
"role": "user",
"content": [
{
"type": "image",
"source": {
"type": "base64",
"media_type": "image/jpeg",
"data": img_b64
}
},
{"type": "text", "text": "Bu görseli detaylı tarif et. Niceleyici detaylar ver."}
]
}]
)
print(r.content[0].text)
 
Vision LLM ile görsel analiz

4 Tipik Vision Use Case#

Görseli kelimeye dök. SEO alt-text, accessibility, content moderation.
"Bu görseli SEO için alt-text üret. - Maks 125 karakter - Anahtar kelime: 'kahve makinesi' - Doğal okunan cümle"
OCR doğruluğu hâlâ %100 değil. Kritik (mali, hukuki) belgelerde insan onayı + çift LLM doğrulama yap. El yazısı özellikle zor.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content