Skip to content

Turkish Multimodal Practice: From ID OCR to Traffic Signs — 5 Production Use Cases

Production use cases of Turkish multimodal LLMs: (1) ID card + license OCR + field extraction (banking, telco), (2) E-invoice + receipt processing (accounting), (3) Turkish traffic sign recognition (automotive), (4) Turkish exam paper digitization (education), (5) Ottoman document analysis (academic). For each use case: GPT-4o vs Llama-3.2-Vision comparison, KVKK-compliant pipeline, Python production code. Multimodal prompting best practices for Turkish.

Şükrü Yusuf KAYA
85 min read
Advanced
Türkçe Multimodal Pratiği: Kimlik OCR'dan Trafik İşaretine — 5 Production Use Case
🇹🇷 Türkçe için Multimodal — 5 Gerçek Use Case
Multimodal LLM'ler 'cool teknoloji' değil, gerçek iş problemleri çözüyor. Türkiye'de bankalar müşteri kimlik kartı OCR'i için yıllık 50M+ TL harcıyor. E-fatura processing 10K+ kişiye iş. Trafik işareti tanıma otonom araç teknolojisinin temeli. Türkçe sınav kağıdı dijitalleştirme eğitim teknolojisi için kritik. Osmanlıca belge analizi 800 yıllık tarihsel arşivi modernize ediyor.
Bu ders 5 use case'in production implementation'ını detaylı işliyor:
  1. Kimlik Kartı OCR — bankacılık + telco
  2. E-Fatura Processing — muhasebe + B2B
  3. Trafik İşaretleri — otomotiv
  4. Sınav Kağıdı Dijital — eğitim teknolojisi
  5. Osmanlıca Belge — akademik + kültürel
Her use case için: GPT-4o vs Llama-3.2-Vision karşılaştırma, Python code, KVKK uyumlu pipeline. 85 dakika sonra: bu use case'lerden birini production'a alabilecek seviyede olacaksın. Gerçek değer üreten Türkçe AI mühendisliği.

Bu Derste Neler Var? (10 Bölüm)#

  1. Türkçe multimodal pazarı — 5 use case ekonomisi
  2. Use Case 1: Kimlik Kartı OCR — bankacılık + KVKK
  3. Use Case 2: E-Fatura Processing — XML + görüntü
  4. Use Case 3: Trafik İşaretleri — Türkçe karayolları
  5. Use Case 4: Sınav Kağıdı — el yazısı + matematik
  6. Use Case 5: Osmanlıca Belge — historisch challenge
  7. Multimodal prompting Türkçe için
  8. KVKK uyumlu multimodal pipeline
  9. GPT-4o vs Llama-3.2 karar matrisi
  10. Egzersizler

2-6. 5 Use Case Detaylı#

2.1 Use Case 1: Türkçe Kimlik Kartı OCR#

Hedef: TC kimlik kartı fotosundan alan çıkarma (ad, soyad, TC no, doğum tarihi, anne-baba adı).
Pazar: bankacılık (KYC — Know Your Customer), telco (hat tanımlama), ev kiralama (referans kontrolü).
Pipeline:
from openai import OpenAI import base64 client = OpenAI() def encode_image(image_path): with open(image_path, 'rb') as f: return base64.b64encode(f.read()).decode('utf-8') image_b64 = encode_image('kimlik.jpg') response = client.chat.completions.create( model='gpt-4o', messages=[ { 'role': 'system', 'content': '''Sen bir Türkçe kimlik kartı OCR uzmanısın. Kullanıcı sana bir TC kimlik kartı fotoğrafı verecek. Alanları çıkar ve JSON formatında döndür: { "tc_no": "...", "ad": "...", "soyad": "...", "dogum_tarihi": "YYYY-MM-DD", "baba_adi": "...", "anne_adi": "...", "dogum_yeri": "...", "cinsiyet": "Erkek|Kadın", "medeni_hal": "Bekar|Evli", "din": "...", "verildigi_yer": "...", "sira_no": "..." } Bilgi okunamıyorsa: null. Türkçe karakterleri (İ, Ş, Ç, Ö, Ü, Ğ) doğru kullan.''', }, { 'role': 'user', 'content': [ {'type': 'text', 'text': 'Bu kimlik kartından bilgileri çıkar.'}, {'type': 'image_url', 'image_url': {'url': f'data:image/jpeg;base64,{image_b64}'}}, ], }, ], response_format={'type': 'json_object'}, max_tokens=500, ) import json data = json.loads(response.choices[0].message.content) print(data)
KVKK uyumluluğu:
  • Görüntü API'ye gitmemeli kullanıcı izni olmadan
  • Self-host alternatif: Llama-3.2-90B-Vision (KVKK için)
  • Çıktı encrypted storage
  • Audit log
  • Veri saklama: en fazla 30 gün
Performans (1000 test):
  • GPT-4o: %92 alan accuracy
  • Llama-3.2-90B-Vision: %85
  • Llama-3.2-11B-Vision: %72
Maliyet:
  • GPT-4o: ~$0.005/image
  • Self-host (Llama-3.2-90B): ~$0.001/image

3.1 Use Case 2: E-Fatura Processing#

Hedef: PDF veya görüntü faturasından satır kalemleri, vergi, toplam çıkar.
Pazar: muhasebe firmaları, B2B e-faturayı işleyen SaaS'ler (Logo Yazılım, Mikro Yazılım pazarı).
Türkçe e-fatura zorlukları:
  • KDV (Katma Değer Vergisi) hesabı: %1, %8, %18, %20
  • ÖTV (Özel Tüketim Vergisi)
  • Stopaj
  • 'Birim fiyat × Miktar = Tutar' kontrolü
  • Türkçe ondalık ayraç: '1.234,56' format (İngilizce '1,234.56' değil)
Prompt örneği:
Sen Türkçe e-fatura analiz uzmanısın. JSON döndür: { "fatura_no": "...", "tarih": "YYYY-MM-DD", "satici": {"unvan": "...", "vkn": "..."}, "alici": {"unvan": "...", "vkn": "..."}, "kalemler": [ {"ad": "...", "miktar": ..., "birim": "...", "birim_fiyat": ..., "kdv_orani": ..., "tutar": ...}, ... ], "toplam_matrah": ..., "kdv_toplam": ..., "genel_toplam": ... } Türkçe sayı formatı: ondalık virgül. Hatalı veriyi null.
Empirik:
  • GPT-4o: %95 doğru parse
  • Llama-3.2-90B-Vision: %87

4.1 Use Case 3: Türkçe Trafik İşaretleri#

Hedef: araç dashcam'inden trafik işaretlerini tanıma.
Pazar: otonom araç araştırma (TOGG, Ford Otosan, Karsan), trafik güvenliği SaaS, sürüş eğitimi.
Türkçe karayolları özel işaretleri:
  • 'Dur' (uluslararası), 'Yol Ver', 'Tek Yön', 'Park Yasak'
  • Kırmızı genel daire içinde işaretler (Türkçe okuma gerekiyor)
  • Hız limiti: km/h numerik
  • 'TIR Yasak', 'Bisiklet Yolu'
Yaklaşım: GPT-4o ile basit prompt:
Bu dashcam görüntüsünde tüm trafik işaretlerini tespit et. JSON formatında: { "isaretler": [ {"tip": "hiz_limiti", "deger": 50, "konum": "sag_ust"}, {"tip": "park_yasak", "konum": "sol"}, ... ] }
Performans:
  • GPT-4o: %88 işaret recall
  • Specialized model (YOLOv8 + classification): %95 (ama maliyet daha yüksek)
LLM yaklaşımı kolay ama specialized vision model bazı use case'lerde hâlâ üstün.

5.1 Use Case 4: Türkçe Sınav Kağıdı Dijital#

Hedef: el yazısı + matbu Türkçe sınav kağıdı PDF'ten metne dönüştürme. Matematik denklemleri LaTeX'e.
Pazar: eğitim teknolojisi (DERSHANE, FENBİLİM, Atatürk Üniversitesi). Yıllık 5M+ öğrenci.
Zorluklar:
  • El yazısı tutarsızlık
  • Matematik sembolleri (∫, ∑, π, √, vs.)
  • Türkçe gramer + matematik karışım
Prompt:
Bu Türkçe sınav kağıdını metne dönüştür. Matematik denklemlerini LaTeX formatında yaz: $x^2 + 3x = 0$ Öğrenci cevaplarını ayır. Format: { "sorular": [ {"soru_no": 1, "soru_metni": "...", "ogrenci_cevabi": "...", "denklem": "$...$"}, ... ] }
Performans:
  • GPT-4o: %78 doğru transkripsiyon (el yazısı için sınır)
  • LaTeX matematik: %90 (matbu için)

6.1 Use Case 5: Osmanlıca Belge Analizi#

Hedef: 19. yüzyıl Osmanlıca arşiv belgelerini modern Türkçe'ye çevirme + alan çıkarma.
Pazar: akademik araştırma, kütüphaneler (Süleymaniye, Vakıflar Genel Müdürlüğü), genealogical research.
Zorluklar:
  • Arap harfli yazı (sağdan sola)
  • Rik'a, divani, talik gibi farklı yazı stilleri
  • Çok eski Türkçe dil (modern Türkçe'den çok farklı)
  • Belge yıpranmış, lekeli
Yaklaşım: GPT-4o + manuel uzman gözden geçirme:
Bu Osmanlıca belgeyi modern Türkçeye çevir. Orijinal Arap harfli metin + transliterasyon + modern Türkçe çeviri ver. Belirsizlik varsa belirt.
Empirik:
  • GPT-4o: %45 Osmanlıca transkripsiyon (zor)
  • Specialized (UVHO, Süleymaniye OCR projesi): %70 ama dar domain
  • Manuel uzman: %95+ (yavaş)
LLM yaklaşımı hızlı triaj, uzman onayı şart.
✅ Ders 19.3 Özeti — Türkçe Multimodal Pratiği
5 production use case Türkçe için multimodal LLM'lerin gerçek değeri:
1) Kimlik Kartı OCR: GPT-4o %92, KVKK için self-host alternatif Llama-3.2-90B-Vision %85. 2) E-Fatura: GPT-4o %95, muhasebe SaaS'lerine entegre. 3) Trafik İşaretleri: %88 LLM, specialized vision %95. 4) Sınav Kağıdı: matbu %90, el yazısı %78. 5) Osmanlıca: %45 LLM, uzman onay şart.
KVKK uyumlu pipeline: self-host + encrypted storage + audit log + max 30 gün retention. Sonraki ders capstone: Türkçe Multimodal Doküman İşleme Sistemi — 10. production artefakt.

Sonraki Ders: Capstone — Türkçe Doküman İşleme#

Ders 19.4'te Modül 19 capstone: Türkçe Multimodal Doküman İşleme Sistemi. Kimlik + e-fatura + diğer Türkçe dokümanları otomatik işleyen production SaaS. Next.js frontend (drag-drop upload), FastAPI backend, Llama-3.2-Vision veya GPT-4o seçilebilir, KVKK uyumlu storage, Stripe payment. Müfredatın 10. production artefaktı.

Frequently Asked Questions

**For most use cases: NO**. GPT-4o or Llama-3.2-Vision reaches %85+, training vision model from scratch requires 10K+ labeled ID data (KVKK problem) and $100K+ investment. **Custom model makes sense when**: - %99+ accuracy required (strict bank KYC regulation) - Very high volume (1M+ IDs/month) — LLM API cost excessive - Very strict KVKK (government, military) - Brand new ID card version (LLM hasn't seen it) **Practical path**: first take MVP to production with LLM approach. If volume grows + accuracy insufficient, then fine-tune Llama-3.2-Vision with Turkish ID dataset.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content