Vision: Görsel Anlama, OCR, Schema-driven Extraction

Modern LLM'lerin görsel anlama yetisi. Photo description, OCR, görsel sınıflandırma, schema-driven extraction.

Şükrü Yusuf KAYA

11 dakikalık okuma

25.06.2026

İleri

Vision: Görsel Anlama#

Modern LLM'ler görsel + metin birlikte işler. Claude (vision), GPT-4o, Gemini 2.5 Pro destekliyor.

python

# Vision LLM kullanımı
import os, base64
from anthropic import Anthropic
from dotenv import load_dotenv
load_dotenv()
 
client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))
 
with open("image.jpg", "rb") as f:
    img_b64 = base64.standard_b64encode(f.read()).decode()
 
r = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1000,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image",
                "source": {
                    "type": "base64",
                    "media_type": "image/jpeg",
                    "data": img_b64
                }
            },
            {"type": "text", "text": "Bu görseli detaylı tarif et. Niceleyici detaylar ver."}
        ]
    }]
)
print(r.content[0].text)

Vision LLM ile görsel analiz

4 Tipik Vision Use Case#

Görseli kelimeye dök. SEO alt-text, accessibility, content moderation.

"Bu görseli SEO için alt-text üret.
- Maks 125 karakter
- Anahtar kelime: 'kahve makinesi'
- Doğal okunan cümle"

OCR doğruluğu hâlâ %100 değil. Kritik (mali, hukuki) belgelerde insan onayı + çift LLM doğrulama yap. El yazısı özellikle zor.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

1. Temeller — Yapay Zekâ ve LLM'lere Giriş

Vision: Görsel Anlama#

4 Tipik Vision Use Case#

Yorumlar & Soru-Cevap

İlgili İçerikler

Bu Eğitim Hakkında ve Verimli Çalışma Yöntemi

Yapay Zekâ → Üretken AI → LLM: Bağlamsal Harita

LLM'ler Aslında Nasıl Düşünür? (Token, Embedding, Attention)