Vision: Görsel Anlama, OCR, Schema-driven Extraction
Modern LLM'lerin görsel anlama yetisi. Photo description, OCR, görsel sınıflandırma, schema-driven extraction.
Şükrü Yusuf KAYA
11 dakikalık okuma
İleriVision: Görsel Anlama
Modern LLM'ler görsel + metin birlikte işler. Claude (vision), GPT-4o, Gemini 2.5 Pro destekliyor.
python
# Vision LLM kullanımıimport os, base64from anthropic import Anthropicfrom dotenv import load_dotenvload_dotenv() client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY")) with open("image.jpg", "rb") as f: img_b64 = base64.standard_b64encode(f.read()).decode() r = client.messages.create( model="claude-sonnet-4-6", max_tokens=1000, messages=[{ "role": "user", "content": [ { "type": "image", "source": { "type": "base64", "media_type": "image/jpeg", "data": img_b64 } }, {"type": "text", "text": "Bu görseli detaylı tarif et. Niceleyici detaylar ver."} ] }])print(r.content[0].text) Vision LLM ile görsel analiz
4 Tipik Vision Use Case#
Görseli kelimeye dök. SEO alt-text, accessibility, content moderation.
"Bu görseli SEO için alt-text üret. - Maks 125 karakter - Anahtar kelime: 'kahve makinesi' - Doğal okunan cümle"
OCR doğruluğu hâlâ %100 değil. Kritik (mali, hukuki) belgelerde insan onayı + çift LLM doğrulama yap. El yazısı özellikle zor.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
1. Temeller — Yapay Zekâ ve LLM'lere Giriş
Bu Eğitim Hakkında ve Verimli Çalışma Yöntemi
Öğrenmeye Başla1. Temeller — Yapay Zekâ ve LLM'lere Giriş
Yapay Zekâ → Üretken AI → LLM: Bağlamsal Harita
Öğrenmeye Başla1. Temeller — Yapay Zekâ ve LLM'lere Giriş