# Project: Structured Data Extraction from PDFs

> Source: https://sukruyusufkaya.com/en/learn/claude-ustaligi/extraction-projesi
> Updated: 2026-05-11T13:48:36.880Z
> Category: Claude Ustalığı
> Module: 11. Real-World Projects
**TLDR:** Invoices, contracts, forms — structured extraction with Claude vision + tool use. Accuracy metrics and audit trail.

# Extraction Pipeline

```
PDF → preprocess → split per page →
   extract per page (vision + schema) →
   merge & deduplicate →
   validate (regex, totals reconcile) →
   human review on low-confidence →
   downstream system (ERP, DB, ETL)
```

```json
{
  "invoice": {
    "number": "INV-2026-00123",
    "issue_date": "2026-04-30",
    "currency": "USD",
    "total": 1290.00,
    "vat": 232.20,
    "items": [
      {"sku":"A-12","qty":2,"unit_price":495.00,"line_total":990.00}
    ]
  },
  "supplier": {"name":"...", "tax_id":"..."},
  "buyer":    {"name":"...", "tax_id":"..."},
  "extraction_metadata": {
    "model":"claude-sonnet-4-6",
    "page_count": 3,
    "confidence": 0.94
  }
}
```

### Validation kuralları

- Toplam satır = items toplamı + KDV
- Tarih formatı ISO
- Tax ID regex'e uygun
- Tutarlar pozitif

Validation başarısızsa o kayıt insan kuyruğuna düşer.

### Confidence pratiği

Modelden 0-1 confidence iste. < 0.85 olanlar insan review. Eval setiyle confidence kalibrasyonu kontrol et.

### Audit trail

Her ekstraksiyonu kaydet: hangi sayfa, hangi koordinatlar, hangi prompt sürümü, hangi modelin çıktısı, hangi insan onayı.

**Boşluk doldurma egzersizi (text):**
```text
Extraction pipeline'ı son aşamasında sonuçlar bir downstream _____ sistemine akıtılır. Confidence _____ altındaysa insan review tetiklenir. Validation aşamasında toplamların _____ kontrolü yapılır.
```

> ✋ Kontrol noktası: `q-1105-mc1`

> 📝 İlgili quiz: `module-11-final`