Turkish Multimodal Practice: From ID OCR to Traffic Signs — 5 Production Use Cases
Production use cases of Turkish multimodal LLMs: (1) ID card + license OCR + field extraction (banking, telco), (2) E-invoice + receipt processing (accounting), (3) Turkish traffic sign recognition (automotive), (4) Turkish exam paper digitization (education), (5) Ottoman document analysis (academic). For each use case: GPT-4o vs Llama-3.2-Vision comparison, KVKK-compliant pipeline, Python production code. Multimodal prompting best practices for Turkish.
Şükrü Yusuf KAYA
85 min read
Advanced🇹🇷 Türkçe için Multimodal — 5 Gerçek Use Case
Multimodal LLM'ler 'cool teknoloji' değil, gerçek iş problemleri çözüyor. Türkiye'de bankalar müşteri kimlik kartı OCR'i için yıllık 50M+ TL harcıyor. E-fatura processing 10K+ kişiye iş. Trafik işareti tanıma otonom araç teknolojisinin temeli. Türkçe sınav kağıdı dijitalleştirme eğitim teknolojisi için kritik. Osmanlıca belge analizi 800 yıllık tarihsel arşivi modernize ediyor.
Bu ders 5 use case'in production implementation'ını detaylı işliyor:
- Kimlik Kartı OCR — bankacılık + telco
- E-Fatura Processing — muhasebe + B2B
- Trafik İşaretleri — otomotiv
- Sınav Kağıdı Dijital — eğitim teknolojisi
- Osmanlıca Belge — akademik + kültürel
Her use case için: GPT-4o vs Llama-3.2-Vision karşılaştırma, Python code, KVKK uyumlu pipeline. 85 dakika sonra: bu use case'lerden birini production'a alabilecek seviyede olacaksın. Gerçek değer üreten Türkçe AI mühendisliği.
Bu Derste Neler Var? (10 Bölüm)#
- Türkçe multimodal pazarı — 5 use case ekonomisi
- Use Case 1: Kimlik Kartı OCR — bankacılık + KVKK
- Use Case 2: E-Fatura Processing — XML + görüntü
- Use Case 3: Trafik İşaretleri — Türkçe karayolları
- Use Case 4: Sınav Kağıdı — el yazısı + matematik
- Use Case 5: Osmanlıca Belge — historisch challenge
- Multimodal prompting Türkçe için
- KVKK uyumlu multimodal pipeline
- GPT-4o vs Llama-3.2 karar matrisi
- Egzersizler
2-6. 5 Use Case Detaylı#
2.1 Use Case 1: Türkçe Kimlik Kartı OCR#
Hedef: TC kimlik kartı fotosundan alan çıkarma (ad, soyad, TC no, doğum tarihi, anne-baba adı).
Pazar: bankacılık (KYC — Know Your Customer), telco (hat tanımlama), ev kiralama (referans kontrolü).
Pipeline:
from openai import OpenAI import base64 client = OpenAI() def encode_image(image_path): with open(image_path, 'rb') as f: return base64.b64encode(f.read()).decode('utf-8') image_b64 = encode_image('kimlik.jpg') response = client.chat.completions.create( model='gpt-4o', messages=[ { 'role': 'system', 'content': '''Sen bir Türkçe kimlik kartı OCR uzmanısın. Kullanıcı sana bir TC kimlik kartı fotoğrafı verecek. Alanları çıkar ve JSON formatında döndür: { "tc_no": "...", "ad": "...", "soyad": "...", "dogum_tarihi": "YYYY-MM-DD", "baba_adi": "...", "anne_adi": "...", "dogum_yeri": "...", "cinsiyet": "Erkek|Kadın", "medeni_hal": "Bekar|Evli", "din": "...", "verildigi_yer": "...", "sira_no": "..." } Bilgi okunamıyorsa: null. Türkçe karakterleri (İ, Ş, Ç, Ö, Ü, Ğ) doğru kullan.''', }, { 'role': 'user', 'content': [ {'type': 'text', 'text': 'Bu kimlik kartından bilgileri çıkar.'}, {'type': 'image_url', 'image_url': {'url': f'data:image/jpeg;base64,{image_b64}'}}, ], }, ], response_format={'type': 'json_object'}, max_tokens=500, ) import json data = json.loads(response.choices[0].message.content) print(data)
KVKK uyumluluğu:
- Görüntü API'ye gitmemeli kullanıcı izni olmadan
- Self-host alternatif: Llama-3.2-90B-Vision (KVKK için)
- Çıktı encrypted storage
- Audit log
- Veri saklama: en fazla 30 gün
Performans (1000 test):
- GPT-4o: %92 alan accuracy
- Llama-3.2-90B-Vision: %85
- Llama-3.2-11B-Vision: %72
Maliyet:
- GPT-4o: ~$0.005/image
- Self-host (Llama-3.2-90B): ~$0.001/image
3.1 Use Case 2: E-Fatura Processing#
Hedef: PDF veya görüntü faturasından satır kalemleri, vergi, toplam çıkar.
Pazar: muhasebe firmaları, B2B e-faturayı işleyen SaaS'ler (Logo Yazılım, Mikro Yazılım pazarı).
Türkçe e-fatura zorlukları:
- KDV (Katma Değer Vergisi) hesabı: %1, %8, %18, %20
- ÖTV (Özel Tüketim Vergisi)
- Stopaj
- 'Birim fiyat × Miktar = Tutar' kontrolü
- Türkçe ondalık ayraç: '1.234,56' format (İngilizce '1,234.56' değil)
Prompt örneği:
Sen Türkçe e-fatura analiz uzmanısın. JSON döndür: { "fatura_no": "...", "tarih": "YYYY-MM-DD", "satici": {"unvan": "...", "vkn": "..."}, "alici": {"unvan": "...", "vkn": "..."}, "kalemler": [ {"ad": "...", "miktar": ..., "birim": "...", "birim_fiyat": ..., "kdv_orani": ..., "tutar": ...}, ... ], "toplam_matrah": ..., "kdv_toplam": ..., "genel_toplam": ... } Türkçe sayı formatı: ondalık virgül. Hatalı veriyi null.
Empirik:
- GPT-4o: %95 doğru parse
- Llama-3.2-90B-Vision: %87
4.1 Use Case 3: Türkçe Trafik İşaretleri#
Hedef: araç dashcam'inden trafik işaretlerini tanıma.
Pazar: otonom araç araştırma (TOGG, Ford Otosan, Karsan), trafik güvenliği SaaS, sürüş eğitimi.
Türkçe karayolları özel işaretleri:
- 'Dur' (uluslararası), 'Yol Ver', 'Tek Yön', 'Park Yasak'
- Kırmızı genel daire içinde işaretler (Türkçe okuma gerekiyor)
- Hız limiti: km/h numerik
- 'TIR Yasak', 'Bisiklet Yolu'
Yaklaşım: GPT-4o ile basit prompt:
Bu dashcam görüntüsünde tüm trafik işaretlerini tespit et. JSON formatında: { "isaretler": [ {"tip": "hiz_limiti", "deger": 50, "konum": "sag_ust"}, {"tip": "park_yasak", "konum": "sol"}, ... ] }
Performans:
- GPT-4o: %88 işaret recall
- Specialized model (YOLOv8 + classification): %95 (ama maliyet daha yüksek)
LLM yaklaşımı kolay ama specialized vision model bazı use case'lerde hâlâ üstün.
5.1 Use Case 4: Türkçe Sınav Kağıdı Dijital#
Hedef: el yazısı + matbu Türkçe sınav kağıdı PDF'ten metne dönüştürme. Matematik denklemleri LaTeX'e.
Pazar: eğitim teknolojisi (DERSHANE, FENBİLİM, Atatürk Üniversitesi). Yıllık 5M+ öğrenci.
Zorluklar:
- El yazısı tutarsızlık
- Matematik sembolleri (∫, ∑, π, √, vs.)
- Türkçe gramer + matematik karışım
Prompt:
Bu Türkçe sınav kağıdını metne dönüştür. Matematik denklemlerini LaTeX formatında yaz: $x^2 + 3x = 0$ Öğrenci cevaplarını ayır. Format: { "sorular": [ {"soru_no": 1, "soru_metni": "...", "ogrenci_cevabi": "...", "denklem": "$...$"}, ... ] }
Performans:
- GPT-4o: %78 doğru transkripsiyon (el yazısı için sınır)
- LaTeX matematik: %90 (matbu için)
6.1 Use Case 5: Osmanlıca Belge Analizi#
Hedef: 19. yüzyıl Osmanlıca arşiv belgelerini modern Türkçe'ye çevirme + alan çıkarma.
Pazar: akademik araştırma, kütüphaneler (Süleymaniye, Vakıflar Genel Müdürlüğü), genealogical research.
Zorluklar:
- Arap harfli yazı (sağdan sola)
- Rik'a, divani, talik gibi farklı yazı stilleri
- Çok eski Türkçe dil (modern Türkçe'den çok farklı)
- Belge yıpranmış, lekeli
Yaklaşım: GPT-4o + manuel uzman gözden geçirme:
Bu Osmanlıca belgeyi modern Türkçeye çevir. Orijinal Arap harfli metin + transliterasyon + modern Türkçe çeviri ver. Belirsizlik varsa belirt.
Empirik:
- GPT-4o: %45 Osmanlıca transkripsiyon (zor)
- Specialized (UVHO, Süleymaniye OCR projesi): %70 ama dar domain
- Manuel uzman: %95+ (yavaş)
LLM yaklaşımı hızlı triaj, uzman onayı şart.
✅ Ders 19.3 Özeti — Türkçe Multimodal Pratiği
5 production use case Türkçe için multimodal LLM'lerin gerçek değeri:
1) Kimlik Kartı OCR: GPT-4o %92, KVKK için self-host alternatif Llama-3.2-90B-Vision %85.
2) E-Fatura: GPT-4o %95, muhasebe SaaS'lerine entegre.
3) Trafik İşaretleri: %88 LLM, specialized vision %95.
4) Sınav Kağıdı: matbu %90, el yazısı %78.
5) Osmanlıca: %45 LLM, uzman onay şart.
KVKK uyumlu pipeline: self-host + encrypted storage + audit log + max 30 gün retention. Sonraki ders capstone: Türkçe Multimodal Doküman İşleme Sistemi — 10. production artefakt.
Sonraki Ders: Capstone — Türkçe Doküman İşleme#
Ders 19.4'te Modül 19 capstone: Türkçe Multimodal Doküman İşleme Sistemi. Kimlik + e-fatura + diğer Türkçe dokümanları otomatik işleyen production SaaS. Next.js frontend (drag-drop upload), FastAPI backend, Llama-3.2-Vision veya GPT-4o seçilebilir, KVKK uyumlu storage, Stripe payment. Müfredatın 10. production artefaktı.
Frequently Asked Questions
**For most use cases: NO**. GPT-4o or Llama-3.2-Vision reaches %85+, training vision model from scratch requires 10K+ labeled ID data (KVKK problem) and $100K+ investment.
**Custom model makes sense when**:
- %99+ accuracy required (strict bank KYC regulation)
- Very high volume (1M+ IDs/month) — LLM API cost excessive
- Very strict KVKK (government, military)
- Brand new ID card version (LLM hasn't seen it)
**Practical path**: first take MVP to production with LLM approach. If volume grows + accuracy insufficient, then fine-tune Llama-3.2-Vision with Turkish ID dataset.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Module 0: Course Framework & Workshop Setup
Who Is an LLM Engineer? The AI Engineering Career Ladder from Junior to Staff
Start LearningModule 0: Course Framework & Workshop Setup
Course Philosophy: Why This Path, Why This Order — The Skeleton of an 8-Month Curriculum
Start LearningModule 0: Course Framework & Workshop Setup