Vision: Görsel Anlama ve Analiz
Ekran görüntüsü, fotoğraf, grafik, el yazısı not — Claude vision ile görselden bilgi çıkarmanın akışı ve sınırları.
Şükrü Yusuf KAYA
11 dakikalık okuma
OrtaVision'la Ne Yaparsın?
- Ekran görüntüsünden hata mesajı oku.
- El yazısı notu yazıya çevir.
- Fotoğraflanmış faturadan veri çıkar.
- Grafik / chart yorumla.
- UI mockup'ı koda çevir.
- Kıyafet / yemek / mekan tanıma (yardımcı).
Gerçek dünyada üretim için en sık 4 senaryo: ekran görüntüsü, belge, fatura, ürün fotoğrafı.
python
import anthropic, base64, pathlibclient = anthropic.Anthropic() img_b64 = base64.standard_b64encode(pathlib.Path("invoice.png").read_bytes()).decode() resp = client.messages.create( model="claude-sonnet-4-6", max_tokens=1024, messages=[{ "role":"user", "content":[ {"type":"image","source":{"type":"base64","media_type":"image/png","data":img_b64}}, {"type":"text","text":"Bu faturadan toplam tutar, KDV ve fatura numarasını JSON olarak çıkar."}, ], }],)print(resp.content[0].text)Faturadan veri çıkarımı — base64 yükleme + structured cevap.
Boşluk doldur · text
Vision prompt'unda görseldeki spesifik _____ tarif etmek isabeti artırır. JSON _____ ile çıkış formatı kilitlenir. Görsel uzun ise birden fazla _____ gönderilebilir.Sık Sorulan Sorular
Yapılandırılmış belgeler için Claude vision genelde yeter. Ölçek (milyonlarca sayfa), yüksek hız ve ucuz birim maliyet gerekiyorsa adanmış OCR + Claude post-process daha verimli olabilir.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...