Is it sensible to train custom model for TC ID card OCR?

**For most use cases: NO**. GPT-4o or Llama-3.2-Vision reaches %85+, training vision model from scratch requires 10K+ labeled ID data (KVKK problem) and $100K+ investment. **Custom model makes sense when**: - %99+ accuracy required (strict bank KYC regulation) - Very high volume (1M+ IDs/month) — LLM API cost excessive - Very strict KVKK (government, military) - Brand new ID card version (LLM hasn't seen it) **Practical path**: first take MVP to production with LLM approach. If volume grows + accuracy insufficient, then fine-tune Llama-3.2-Vision with Turkish ID dataset.

Türkçe Multimodal Pratiği | Şükrü Yusuf Kaya

Bu Derste Neler Var? (10 Bölüm)#

Türkçe multimodal pazarı — 5 use case ekonomisi
Use Case 1: Kimlik Kartı OCR — bankacılık + KVKK
Use Case 2: E-Fatura Processing — XML + görüntü
Use Case 3: Trafik İşaretleri — Türkçe karayolları
Use Case 4: Sınav Kağıdı — el yazısı + matematik
Use Case 5: Osmanlıca Belge — historisch challenge
Multimodal prompting Türkçe için
KVKK uyumlu multimodal pipeline
GPT-4o vs Llama-3.2 karar matrisi
Egzersizler

2-6. 5 Use Case Detaylı#

2.1 Use Case 1: Türkçe Kimlik Kartı OCR#

Hedef: TC kimlik kartı fotosundan alan çıkarma (ad, soyad, TC no, doğum tarihi, anne-baba adı).

Pazar: bankacılık (KYC — Know Your Customer), telco (hat tanımlama), ev kiralama (referans kontrolü).

Pipeline:

from openai import OpenAI
import base64

client = OpenAI()

def encode_image(image_path):
    with open(image_path, 'rb') as f:
        return base64.b64encode(f.read()).decode('utf-8')

image_b64 = encode_image('kimlik.jpg')

response = client.chat.completions.create(
    model='gpt-4o',
    messages=[
        {
            'role': 'system',
            'content': '''Sen bir Türkçe kimlik kartı OCR uzmanısın.
Kullanıcı sana bir TC kimlik kartı fotoğrafı verecek.
Alanları çıkar ve JSON formatında döndür:
{
  "tc_no": "...",
  "ad": "...",
  "soyad": "...",
  "dogum_tarihi": "YYYY-MM-DD",
  "baba_adi": "...",
  "anne_adi": "...",
  "dogum_yeri": "...",
  "cinsiyet": "Erkek|Kadın",
  "medeni_hal": "Bekar|Evli",
  "din": "...",
  "verildigi_yer": "...",
  "sira_no": "..."
}
Bilgi okunamıyorsa: null. Türkçe karakterleri (İ, Ş, Ç, Ö, Ü, Ğ) doğru kullan.''',
        },
        {
            'role': 'user',
            'content': [
                {'type': 'text', 'text': 'Bu kimlik kartından bilgileri çıkar.'},
                {'type': 'image_url', 'image_url': {'url': f'data:image/jpeg;base64,{image_b64}'}},
            ],
        },
    ],
    response_format={'type': 'json_object'},
    max_tokens=500,
)

import json
data = json.loads(response.choices[0].message.content)
print(data)

KVKK uyumluluğu:

Görüntü API'ye gitmemeli kullanıcı izni olmadan
Self-host alternatif: Llama-3.2-90B-Vision (KVKK için)
Çıktı encrypted storage
Audit log
Veri saklama: en fazla 30 gün

Performans (1000 test):

GPT-4o: %92 alan accuracy
Llama-3.2-90B-Vision: %85
Llama-3.2-11B-Vision: %72

Maliyet:

GPT-4o: ~$0.005/image
Self-host (Llama-3.2-90B): ~$0.001/image

3.1 Use Case 2: E-Fatura Processing#

Hedef: PDF veya görüntü faturasından satır kalemleri, vergi, toplam çıkar.

Pazar: muhasebe firmaları, B2B e-faturayı işleyen SaaS'ler (Logo Yazılım, Mikro Yazılım pazarı).

Türkçe e-fatura zorlukları:

KDV (Katma Değer Vergisi) hesabı: %1, %8, %18, %20
ÖTV (Özel Tüketim Vergisi)
Stopaj
'Birim fiyat × Miktar = Tutar' kontrolü
Türkçe ondalık ayraç: '1.234,56' format (İngilizce '1,234.56' değil)

Prompt örneği:

Sen Türkçe e-fatura analiz uzmanısın. JSON döndür:
{
  "fatura_no": "...",
  "tarih": "YYYY-MM-DD",
  "satici": {"unvan": "...", "vkn": "..."},
  "alici": {"unvan": "...", "vkn": "..."},
  "kalemler": [
    {"ad": "...", "miktar": ..., "birim": "...", "birim_fiyat": ..., "kdv_orani": ..., "tutar": ...},
    ...
  ],
  "toplam_matrah": ...,
  "kdv_toplam": ...,
  "genel_toplam": ...
}
Türkçe sayı formatı: ondalık virgül. Hatalı veriyi null.

Empirik:

GPT-4o: %95 doğru parse
Llama-3.2-90B-Vision: %87

4.1 Use Case 3: Türkçe Trafik İşaretleri#

Hedef: araç dashcam'inden trafik işaretlerini tanıma.

Pazar: otonom araç araştırma (TOGG, Ford Otosan, Karsan), trafik güvenliği SaaS, sürüş eğitimi.

Türkçe karayolları özel işaretleri:

'Dur' (uluslararası), 'Yol Ver', 'Tek Yön', 'Park Yasak'
Kırmızı genel daire içinde işaretler (Türkçe okuma gerekiyor)
Hız limiti: km/h numerik
'TIR Yasak', 'Bisiklet Yolu'

Yaklaşım: GPT-4o ile basit prompt:

Bu dashcam görüntüsünde tüm trafik işaretlerini tespit et.
JSON formatında:
{
  "isaretler": [
    {"tip": "hiz_limiti", "deger": 50, "konum": "sag_ust"},
    {"tip": "park_yasak", "konum": "sol"},
    ...
  ]
}

Performans:

GPT-4o: %88 işaret recall
Specialized model (YOLOv8 + classification): %95 (ama maliyet daha yüksek)

LLM yaklaşımı kolay ama specialized vision model bazı use case'lerde hâlâ üstün.

5.1 Use Case 4: Türkçe Sınav Kağıdı Dijital#

Hedef: el yazısı + matbu Türkçe sınav kağıdı PDF'ten metne dönüştürme. Matematik denklemleri LaTeX'e.

Pazar: eğitim teknolojisi (DERSHANE, FENBİLİM, Atatürk Üniversitesi). Yıllık 5M+ öğrenci.

Zorluklar:

El yazısı tutarsızlık
Matematik sembolleri (∫, ∑, π, √, vs.)
Türkçe gramer + matematik karışım

Prompt:

Bu Türkçe sınav kağıdını metne dönüştür.
Matematik denklemlerini LaTeX formatında yaz: $x^2 + 3x = 0$
Öğrenci cevaplarını ayır.
Format:
{
  "sorular": [
    {"soru_no": 1, "soru_metni": "...", "ogrenci_cevabi": "...", "denklem": "$...$"},
    ...
  ]
}

Performans:

GPT-4o: %78 doğru transkripsiyon (el yazısı için sınır)
LaTeX matematik: %90 (matbu için)

6.1 Use Case 5: Osmanlıca Belge Analizi#

Hedef: 19. yüzyıl Osmanlıca arşiv belgelerini modern Türkçe'ye çevirme + alan çıkarma.

Pazar: akademik araştırma, kütüphaneler (Süleymaniye, Vakıflar Genel Müdürlüğü), genealogical research.

Zorluklar:

Arap harfli yazı (sağdan sola)
Rik'a, divani, talik gibi farklı yazı stilleri
Çok eski Türkçe dil (modern Türkçe'den çok farklı)
Belge yıpranmış, lekeli

Yaklaşım: GPT-4o + manuel uzman gözden geçirme:

Bu Osmanlıca belgeyi modern Türkçeye çevir.
Orijinal Arap harfli metin + transliterasyon + modern Türkçe çeviri ver.
Belirsizlik varsa belirt.

Empirik:

GPT-4o: %45 Osmanlıca transkripsiyon (zor)
Specialized (UVHO, Süleymaniye OCR projesi): %70 ama dar domain
Manuel uzman: %95+ (yavaş)

LLM yaklaşımı hızlı triaj, uzman onayı şart.

Sonraki Ders: Capstone — Türkçe Doküman İşleme#

Ders 19.4'te Modül 19 capstone: Türkçe Multimodal Doküman İşleme Sistemi. Kimlik + e-fatura + diğer Türkçe dokümanları otomatik işleyen production SaaS. Next.js frontend (drag-drop upload), FastAPI backend, Llama-3.2-Vision veya GPT-4o seçilebilir, KVKK uyumlu storage, Stripe payment. Müfredatın 10. production artefaktı.

Turkish Multimodal Practice: From ID OCR to Traffic Signs — 5 Production Use Cases

Bu Derste Neler Var? (10 Bölüm)#

2-6. 5 Use Case Detaylı#

2.1 Use Case 1: Türkçe Kimlik Kartı OCR#

3.1 Use Case 2: E-Fatura Processing#

4.1 Use Case 3: Türkçe Trafik İşaretleri#

5.1 Use Case 4: Türkçe Sınav Kağıdı Dijital#

6.1 Use Case 5: Osmanlıca Belge Analizi#

Sonraki Ders: Capstone — Türkçe Doküman İşleme#

Frequently Asked Questions

Is it sensible to train custom model for TC ID card OCR?

Yorumlar & Soru-Cevap

Related Content

Who Is an LLM Engineer? The AI Engineering Career Ladder from Junior to Staff

Course Philosophy: Why This Path, Why This Order — The Skeleton of an 8-Month Curriculum

Workshop Setup: uv, PyTorch 2.5+, CUDA, WSL2, Mac MPS, Triton, FlashAttention, Nsight

Subscribe to Newsletter