Skip to content

Vision: Image Understanding and Analysis

Screenshots, photos, charts, handwritten notes — extracting information from images with Claude vision, plus its limits.

Şükrü Yusuf KAYA
11 min read
Intermediate
Vision iş akışı: görsel + soru → analiz

Vision'la Ne Yaparsın?

  • Ekran görüntüsünden hata mesajı oku.
  • El yazısı notu yazıya çevir.
  • Fotoğraflanmış faturadan veri çıkar.
  • Grafik / chart yorumla.
  • UI mockup'ı koda çevir.
  • Kıyafet / yemek / mekan tanıma (yardımcı).
Gerçek dünyada üretim için en sık 4 senaryo: ekran görüntüsü, belge, fatura, ürün fotoğrafı.
Vision boru hattı: image upload → vision tokens → analiz
Vision boru hattı.
python
import anthropic, base64, pathlib
client = anthropic.Anthropic()
 
img_b64 = base64.standard_b64encode(pathlib.Path("invoice.png").read_bytes()).decode()
 
resp = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{
"role":"user",
"content":[
{"type":"image","source":{"type":"base64","media_type":"image/png","data":img_b64}},
{"type":"text","text":"Bu faturadan toplam tutar, KDV ve fatura numarasını JSON olarak çıkar."},
],
}],
)
print(resp.content[0].text)
Faturadan veri çıkarımı — base64 yükleme + structured cevap.
Boşluk doldur · text
Vision prompt'unda görseldeki spesifik _____ tarif etmek isabeti artırır. JSON _____ ile çıkış formatı kilitlenir. Görsel uzun ise birden fazla _____ gönderilebilir.

Frequently Asked Questions

For structured documents, Claude vision is usually enough. For massive scale, dedicated OCR + Claude post-processing is more efficient.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content