Proje: PDF'ten Yapılandırılmış Veri Çıkarımı
Faturalar, sözleşmeler, formlar — Claude vision + tool use ile yapısal veri çıkarımı. Doğruluk metrikleri ve audit trail.
Şükrü Yusuf KAYA
13 dakikalık okuma
İleriExtraction Pipeline
PDF → preprocess → split per page → extract per page (vision + schema) → merge & deduplicate → validate (regex, totals reconcile) → human review on low-confidence → downstream system (ERP, DB, ETL)
json
{ "invoice": { "number": "INV-2026-00123", "issue_date": "2026-04-30", "currency": "USD", "total": 1290.00, "vat": 232.20, "items": [ {"sku":"A-12","qty":2,"unit_price":495.00,"line_total":990.00} ] }, "supplier": {"name":"...", "tax_id":"..."}, "buyer": {"name":"...", "tax_id":"..."}, "extraction_metadata": { "model":"claude-sonnet-4-6", "page_count": 3, "confidence": 0.94 }}Hedef şema — confidence ile birlikte audit trail.
Boşluk doldur · text
Extraction pipeline'ı son aşamasında sonuçlar bir downstream _____ sistemine akıtılır. Confidence _____ altındaysa insan review tetiklenir. Validation aşamasında toplamların _____ kontrolü yapılır.Quiz
Bu modülü değerlendirme zamanı
Buraya kadar öğrendiklerini quiz ile pekiştir. Süreli, puanlı ve geri bildirimli bir değerlendirmedir.
Quiz'e başlaSık Sorulan Sorular
Çoğu ortak iş için evet. Ancak çok yüksek hacim (milyon sayfa/gün) gerektiren senaryolarda dedicate OCR + Claude post-process daha ekonomik olabilir.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...