İçeriğe geç

Proje: PDF'ten Yapılandırılmış Veri Çıkarımı

Faturalar, sözleşmeler, formlar — Claude vision + tool use ile yapısal veri çıkarımı. Doğruluk metrikleri ve audit trail.

Şükrü Yusuf KAYA
13 dakikalık okuma
İleri
PDF → structured JSON pipeline'ı

Extraction Pipeline

PDF → preprocess → split per page → extract per page (vision + schema) → merge & deduplicate → validate (regex, totals reconcile) → human review on low-confidence → downstream system (ERP, DB, ETL)
json
{
"invoice": {
"number": "INV-2026-00123",
"issue_date": "2026-04-30",
"currency": "USD",
"total": 1290.00,
"vat": 232.20,
"items": [
{"sku":"A-12","qty":2,"unit_price":495.00,"line_total":990.00}
]
},
"supplier": {"name":"...", "tax_id":"..."},
"buyer": {"name":"...", "tax_id":"..."},
"extraction_metadata": {
"model":"claude-sonnet-4-6",
"page_count": 3,
"confidence": 0.94
}
}
Hedef şema — confidence ile birlikte audit trail.
Boşluk doldur · text
Extraction pipeline'ı son aşamasında sonuçlar bir downstream _____ sistemine akıtılır. Confidence _____ altındaysa insan review tetiklenir. Validation aşamasında toplamların _____ kontrolü yapılır.
Quiz

Bu modülü değerlendirme zamanı

Buraya kadar öğrendiklerini quiz ile pekiştir. Süreli, puanlı ve geri bildirimli bir değerlendirmedir.

Quiz'e başla

Sık Sorulan Sorular

Çoğu ortak iş için evet. Ancak çok yüksek hacim (milyon sayfa/gün) gerektiren senaryolarda dedicate OCR + Claude post-process daha ekonomik olabilir.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler