Türkçe bir startup için en pratik LLM stack nedir?

**MVP**: Anthropic Claude API + multilingual-e5 embedding + pgvector + Vercel/Cloudflare host. **Ölçek**: Aylık $5K+ API gideri olunca Trendyol-LLM-70B veya Llama 3.3 70B Turkish fine-tune self-host'a geç. **Mobil/Edge**: Kumru-2B veya küçük quantized model.

Türkçe için OCR projesi yapacağım, hangi araç en iyi?

Sıra: (1) **Tesseract 5+ tur traineddata** (açık, ücretsiz) iyi quality + temiz dokümanlar için, (2) **PaddleOCR 2.7+** Türkçe karakterlerde Tesseract'tan iyi, (3) **Google Cloud Vision API** managed kalite-maksimum, (4) **Claude Sonnet 4 vision** veya **GPT-4o vision** — eski/karmaşık doküman + tablolar + el yazısı için en güçlü.

Türkçe AI alanında nasıl topluluk oluşturabilirim / iş ağı kurabilirim?

(1) **Türkiye Yapay Zeka İnisiyatifi** (turkiye.ai) — meetup'lar, etkinlikler. (2) **AI Safety Türkiye** Discord. (3) **deepLearning Türkiye** meetup. (4) **HuggingFace tr** etkinlikleri. (5) **LinkedIn**: Trendyol/Getir/Hepsi AI ekiplerini takip et, içerik üret. (6) **Teknofest** etkinliklerinde stand al/katıl. (7) **arxiv-sanity-tr** ile akademik takip.

Türkçe için Yapay Zeka Derinlemesine: NLP, LLM ve Pratik Pipeline

Türkçe NLP'nin spesifik zorlukları (aglutinatif morfoloji, ünlü uyumu, tokenization patlaması), Türkçe-özel açık LLM ekosistemi (TURNA, Kanarya, Kumru, Trendyol-LLM), Türkçe RAG kurma rehberi, ve Türkiye AI ekosisteminde nasıl kariyer kuracağınız üzerine kapsamlı bir bölüm. Bu ders Türkçe için bir AI sistemi inşa edecek herkes için zorunlu okuma.

Şükrü Yusuf KAYA

32 dakikalık okuma

13.05.2026

Orta

Türkçe için Yapay Zeka Derinlemesine: NLP, LLM ve Pratik Pipeline

🇹🇷 Bu dersin amacı

Önceki dersler global ve teorikti. Bu derste Türkçe'ye özel teknik zorlukları, açık kaynak Türkçe LLM ekosistemini, Türkçe RAG sistemi kurmanın pratik adımlarını ve Türkiye'deki AI kariyer yollarını uçtan uca işleyeceğiz. Bu derste 12 spesifik soru-cevap, 4 kod örneği ve 3 vaka çalışması var.

Neden ayrı bir 'Türkçe AI' dersi?#

Türkçe dünyadaki en zor NLP dillerinden biridir. İngilizce için iyi çalışan bir pipeline, Türkçe'ye uyarlandığında ekseriyetle %20-40 performans kaybı yaşar. Sebebi tek bir kelimede: morfoloji.

Ayrıca Türkçe low-resource language kategorisindedir — İngilizce'nin %1'inden az eğitim verisi var. Bu hem zorluk hem fırsat: Türkçe'de iyi çalışan bir model kurmak global rakipler için zor; senin için competitive moat.

🧬 Türkçe'nin NLP Zorlukları — Beş Cephe#

1. Aglutinatif Morfoloji (Eklemeli Yapı)#

Türkçe aglutinatif bir dildir: bir kök sözcüğe sırayla bağımsız ekler eklenir ve her ek anlamı/dilbilgisini değiştirir.

Klasik örnek:

Çekoslovakyalılaştıramadıklarımızdan mısınız?

Bu tek "kelime" şu eklerden oluşur:

Çekoslovak
— kök (özel isim)
-ya
— yer/yön belirteci
-lı
— ait olma
-laş
— dönüştürme fiili
-tır
— ettirme
-ama
— yetersizlik
-dık
— geçmiş zaman partisip
-lar
— çoğul
-ımız
— 1. çoğul iyelik
-dan
— ablatif
-mı
— soru
-sınız
— 2. çoğul kişi

İngilizce karşılığı tam bir cümledir: "Are you one of those whom we couldn't make become Czechoslovakian?"

ML açısından sonuç: Tek bir kökten binlerce yüzey biçimi üretilebilir. Kelime-bazlı tokenization sözcük dağarcığını patlatır.

2. Ünlü ve Ünsüz Uyumları#

Türkçe'de vowel harmony (ünlü uyumu) ve consonant alternation (ünsüz değişmesi) ek formlarını değiştirir:

Kelime	Ek ( `-de/-da` )	Sebep
ev	evde	"e" ince → "-de"
okul	okulda	"u" kalın → "-da"
kitap → kitabı	-p → -b	yumuşama (consonant alternation)
ağaç → ağacı	-ç → -c	yumuşama

ML açısından sonuç: Aynı semantik ek farklı yüzey formlarına bürünür. Tokenizer eğer morfoloji-farkındalı değilse "

-de

" ve "

-da

"yı iki ayrı token sayar; model arasındaki ilişkiyi öğrenmek zorunda kalır.

3. Cümle Yapısı: SOV vs SVO#

Türkçe SOV (Subject-Object-Verb): "Ali kitabı okudu" (Ali / book / read). İngilizce SVO: "Ali read the book".

Çoğu Transformer İngilizce'nin SVO yapısına aşinadır; Türkçe SOV cümlelerde attention pattern öğrenmek için ekstra veri gerekir.

4. Düşük Kaynak (Low-Resource)#

Dil	Common Crawl yüzdesi	Wikipedia makale sayısı
İngilizce	~46%	6.7M
İspanyolca	~5%	1.9M
Almanca	~5%	2.9M
Türkçe	~0.7%	600K

Sonuç: Multilingual modeller (Llama, Qwen, Gemini) Türkçe'de İngilizce kalitesinin %60-80'ini alır. Türkçe-özel fine-tuning veya Türkçe-öncelikli model (TURNA, Kumru) bu açığı kapatır.

5. Karakter Setleri ve Türkçe'ye Özel Karakterler#

ı, İ, ş, ğ, ç, ö, ü

— modern UTF-8 ile sorun yok ama case-folding zor:

I

küçük hali

ı

İ

küçük hali

i

. İngilizce yazılım rutinleri bu farkı bilmez; bug kaynağı.

Pratik:

# Yanlış
"İSTANBUL".lower()  # 'i̇stanbul' — kombinasyonel karakter, hatalı

# Doğru
import locale
locale.setlocale(locale.LC_ALL, 'tr_TR.UTF-8')
"İSTANBUL".lower()  # 'istanbul'

# Veya manuel
'İSTANBUL'.translate(str.maketrans('İIıi', 'iiıı'))

🔤 Türkçe Tokenization — Hangi Yöntem Hangi Görev İçin?#

Bir LLM'in Türkçe performansının %30-50'si tokenizer kalitesine bağlı.

python

# Aynı Türkçe cümleyi 5 farklı tokenizer'da karşılaştır
from transformers import AutoTokenizer
 
text = "Çekoslovakyalılaştıramadıklarımızdan mısınız?"
 
tokenizers = {
    "GPT-4 (cl100k_base)":      "cl100k_base",  # tiktoken
    "Llama 3 (BPE)":            "meta-llama/Meta-Llama-3-8B",
    "Turkish BERT":             "dbmdz/bert-base-turkish-cased",
    "TURNA (Boğaziçi)":         "boun-tabi-LMG/turna_3b",
    "Trendyol-LLM-7b":          "Trendyol/Trendyol-LLM-7b-base",
}
 
print(f"Cümle: {text}")
print(f"Karakter sayısı: {len(text)}")
print()
print(f"{'Tokenizer':<28} {'Token sayısı':>14} {'Verim':>10}")
print("-" * 56)
 
for name, model in tokenizers.items():
    tok = AutoTokenizer.from_pretrained(model)
    tokens = tok.tokenize(text)
    ratio = len(text) / len(tokens)
    print(f"{name:<28} {len(tokens):>14} {ratio:>8.2f} char/tok")
 
# Beklenen sonuç (yaklaşık):
# GPT-4 (cl100k_base)              ~25 token   ~2.0 char/tok  (kötü)
# Llama 3 (BPE)                    ~20 token   ~2.5 char/tok  (orta)
# Turkish BERT                     ~8 token    ~6.0 char/tok  (iyi)
# TURNA                            ~6 token    ~8.0 char/tok  (çok iyi)
# Trendyol-LLM-7b                  ~7 token    ~7.0 char/tok  (çok iyi)

Aynı kelime, farklı tokenizer'larda 6-25 token. Türkçe görevlerde **token-başına maliyet ~3-4x düşebilir** — bu doğrudan API faturana yansır.

💰 Pratik etki: API maliyetinde 2-4x fark

GPT-4 kullanarak Türkçe işlem yapıyorsan, aynı metin İngilizce'ye göre 2-4x daha fazla token'a bölünür. Aynı RAG sistemi İngilizce'de aylık

5K çekerken Türkçe'de

15-20K çekebilir. Çözüm: (1) Token sayısını izle, (2) Türkçe-optimize edilmiş tokenizer'ı olan model seç (Anthropic Claude bu konuda görece iyi), (3) Self-host'a geçiyorsan Trendyol-LLM gibi Türkçe-öncelikli tokenizer'lı model seç.

🤖 Türkçe LLM Ekosistemi (2026 Mayıs) — Kapsamlı Karşılaştırma#

Model	Geliştirici	Yıl	Param	Mimari	Lisans	En İyi Görev
TURNA	Boğaziçi BOUN-TABI-LMG	2023	1.1B	UL2 encoder-decoder	Açık	Çeviri, özet
Kanarya-2B	Koç Üniversitesi	2023	2B	GPT-J decoder-only	Açık	Akademik baseline
cosmosGPT	YTÜ-CE-COSMOS	2024	~1B	GPT-2 monolingual	Açık	Türkçe-saf üretim
Trendyol-LLM-7b-base	Trendyol Tech	2024-02	7B	Llama 2 fine-tune	Açık (TR/EN)	Üretim, sohbet
Trendyol-LLM-7b-chat	Trendyol Tech	2024	7B	Llama 2 + SFT/DPO	Açık	Asistan
Trendyol-LLM-70b	Trendyol Tech	2024	70B	Llama 2 fine-tune	Açık	Üst-seviye kalite
Trendyol-LLM-Cybersec	Trendyol Tech	2024-2025	varies	Llama 2 + cybersec data	Açık	Güvenlik analizi
Kumru-2B	Turna AI / VNGRS	2025-10	2B	Yeni nesil decoder	Açık	Türkçe-öncelikli (en kapsamlı)
dbmdz BERTurk	Bavarian State Library	2019-2021	110M-340M	BERT (encoder)	Açık	NER, klasifikasyon

Ek not — Frontier kapalı modeller: Claude Opus 4, GPT-5, Gemini 2 Pro hâlâ Türkçe'de en iyi kalite veriyor; sadece veri gizliliği veya self-host gerekiyorsa açık modellere bak. Genel kural: frontier API'lar Türkçe'de açık modellerden %20-40 önde (eğitim verisi avantajı).

🛠️ Türkçe için RAG Sistemi Kurmak — Pratik Pipeline#

Aşağıda, Türkçe doküman tabanı üzerine RAG sistemi kurmanın somut adımları:

Sorun: PDF'ler Türkçe karakterleri (ı, İ, ş, ğ) yanlış okuyabilir.

Araçlar (en iyiden en kötüye):

unstructured
+
pdfminer.six
— modern, Türkçe iyi
pdfplumber
— tablo + metin, hızlı
pymupdf (fitz)
— performant
PyPDF2
— eski, Türkçe sorunlu (kullanma)

Tarama PDF (image-based) ise:

Tesseract OCR (Türkçe dil paketi yüklü:
tesseract-ocr-tur
)
PaddleOCR (Türkçe desteği daha iyi, 2024+)
Google Cloud Vision veya AWS Textract (managed, daha kaliteli ama maliyetli)
Claude/GPT-4 vision — son çare, çok pahalı

import pdfplumber

with pdfplumber.open("turkce.pdf") as pdf:
    text = "\n".join(page.extract_text() for page in pdf.pages)

📏 Türkçe LLM Evaluation — Hangi Benchmark, Ne Ölçer?#

Global benchmark'lar Türkçe için yeterli değil — çoğu makine çevirisi, gürültülü.

Türkçe-özel açık benchmark'lar (2024-2026)#

Benchmark	Boyut	Ne ölçer?
TR-MMLU	~14K soru, 57 alan	Genel bilgi (MMLU'nun Türkçe yeniden, akademik gözden geçirme ile)
Belebele-tr	900 paragraf MC	Okuma anlama (Meta'nın 122 dilli benchmark'ı)
TruthfulQA-tr	800+ soru	Halüsinasyon eğilimi
XCOPA-tr	600 soru	Akıl yürütme (sebep-sonuç)
TurkishWinoGrande	~1K	Common sense reasoning
TR-Hellaswag	~10K	Cümle tamamlama
TR-AGIEval	~5K	Profesyonel sınav soruları (üniversiteye giriş vb.)

Açık leaderboard#

OpenLLMTurkishLeaderboard (HuggingFace) — her ay güncellenir; modelini gönderebilirsin.

URL örneği:

https://huggingface.co/spaces/.../open-llm-tr-leaderboard

Pratik tavsiye: kendi altın kümen#

Public benchmark'lar genel; gerçek üretim için kendi 100-300 sorulu altın kümen olmalı.

Adımlar:

100 gerçek kullanıcı sorusu topla (3-6 hafta production)
Her birinin ideal yanıtını uzman olarak yaz
3-5 modelde çalıştır
LLM-as-judge (Claude Opus / GPT-5) + manual review
Her release için bu suite'i çalıştır → regression engelle

ROI: Eval suite kurmadan production'a alma. Eval olmadan model değiştiremezsin.

💼 Türkiye'de AI Kariyer Yolları (2026 Mayıs Pazarı)#

Türkiye AI piyasası arz az, talep çok — özellikle LLM ürünleştirme tarafında. İşte gerçekçi yol haritası:

Beklentiler:

Python (
pandas
,
numpy
,
scikit-learn
) iyi
En az 1 büyük ML projeyi end-to-end yapmış
Bir LLM (Claude/GPT/Llama) API ile prototip yapmış
SQL temelleri, Git
Kaggle/HuggingFace profili tercih sebebi

Beklenen maaş: 80-150K ₺/ay (İstanbul/Ankara), remote ABD/AB firma için $3-6K/ay

Hangi şirketler?:

E-ticaret tech (Trendyol, Hepsiburada, GittiGidiyor) — graduate program
Bankacılık (Garanti, İş Bankası, Akbank) — AI/data tracks
Telco (Turkcell, Türk Telekom) — AI Lab girişleri
Startup (VNGRS, Vispera, Sestek) — daha fazla sorumluluk, daha az maaş

Portföy önerisi: 1 ML proje (Iris benzeri klasik), 1 LLM RAG ürünü, 1 fine-tuning denemesi.

🎯 Bu derste neler öğrendik?#

✓ Türkçe NLP'nin 5 spesifik zorluğu — aglutinatif morfoloji, ünlü uyumu, SOV yapı, low-resource, karakter setleri. ✓ Tokenization etkisi — GPT-4 vs TURNA arasında 3-4x token sayısı farkı = maliyet ve performans. ✓ Türkçe LLM ekosistemi — TURNA, Kanarya, Trendyol-LLM, Kumru'nun ne zaman kullanılacağı. ✓ Türkçe RAG pipeline — extraction'dan generation'a 7 adım, her birinde Türkçe spesifik tercihler. ✓ Türkçe eval — TR-MMLU, Belebele-tr, TruthfulQA-tr ve kendi altın kümen. ✓ Türkiye AI iş piyasası — junior/mid/senior beklentiler, gerçek maaş aralıkları.

Sıradaki ders: AI Güvenliği Derinlemesine — adversarial attacks, red teaming, jailbreaking ve production savunma stratejileri.

Sık Sorulan Sorular

Çoğu use case için frontier API (Claude Opus 4, GPT-5) Türkçe'de iyi sonuç verir — fine-tuning gereksiz. Fine-tuning sadece şu durumlarda mantıklı: (1) çok dar bir domain dili (hukuk, tıp, finans Türkçe), (2) marka tonu/stili kalıcı öğretmek, (3) veri gizliliği nedeniyle self-host şart. RAG çoğu durumda fine-tuning'den ucuz ve esnek.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 1: Temeller