İçeriğe geç

Türkçe için Yapay Zeka Derinlemesine: NLP, LLM ve Pratik Pipeline

Türkçe NLP'nin spesifik zorlukları (aglutinatif morfoloji, ünlü uyumu, tokenization patlaması), Türkçe-özel açık LLM ekosistemi (TURNA, Kanarya, Kumru, Trendyol-LLM), Türkçe RAG kurma rehberi, ve Türkiye AI ekosisteminde nasıl kariyer kuracağınız üzerine kapsamlı bir bölüm. Bu ders Türkçe için bir AI sistemi inşa edecek herkes için zorunlu okuma.

Şükrü Yusuf KAYA
32 dakikalık okuma
Orta
Türkçe için Yapay Zeka Derinlemesine: NLP, LLM ve Pratik Pipeline
🇹🇷 Bu dersin amacı
Önceki dersler global ve teorikti. Bu derste Türkçe'ye özel teknik zorlukları, açık kaynak Türkçe LLM ekosistemini, Türkçe RAG sistemi kurmanın pratik adımlarını ve Türkiye'deki AI kariyer yollarını uçtan uca işleyeceğiz. Bu derste 12 spesifik soru-cevap, 4 kod örneği ve 3 vaka çalışması var.

Neden ayrı bir 'Türkçe AI' dersi?#

Türkçe dünyadaki en zor NLP dillerinden biridir. İngilizce için iyi çalışan bir pipeline, Türkçe'ye uyarlandığında ekseriyetle %20-40 performans kaybı yaşar. Sebebi tek bir kelimede: morfoloji.
Ayrıca Türkçe low-resource language kategorisindedir — İngilizce'nin %1'inden az eğitim verisi var. Bu hem zorluk hem fırsat: Türkçe'de iyi çalışan bir model kurmak global rakipler için zor; senin için competitive moat.

🧬 Türkçe'nin NLP Zorlukları — Beş Cephe#

1. Aglutinatif Morfoloji (Eklemeli Yapı)#

Türkçe aglutinatif bir dildir: bir kök sözcüğe sırayla bağımsız ekler eklenir ve her ek anlamı/dilbilgisini değiştirir.
Klasik örnek:
Çekoslovakyalılaştıramadıklarımızdan mısınız?
Bu tek "kelime" şu eklerden oluşur:
  • Çekoslovak
    — kök (özel isim)
  • -ya
    — yer/yön belirteci
  • -lı
    — ait olma
  • -laş
    — dönüştürme fiili
  • -tır
    — ettirme
  • -ama
    — yetersizlik
  • -dık
    — geçmiş zaman partisip
  • -lar
    — çoğul
  • -ımız
    — 1. çoğul iyelik
  • -dan
    — ablatif
  • -mı
    — soru
  • -sınız
    — 2. çoğul kişi
İngilizce karşılığı tam bir cümledir: "Are you one of those whom we couldn't make become Czechoslovakian?"
ML açısından sonuç: Tek bir kökten binlerce yüzey biçimi üretilebilir. Kelime-bazlı tokenization sözcük dağarcığını patlatır.

2. Ünlü ve Ünsüz Uyumları#

Türkçe'de vowel harmony (ünlü uyumu) ve consonant alternation (ünsüz değişmesi) ek formlarını değiştirir:
KelimeEk (
-de/-da
)
Sebep
evevde"e" ince → "-de"
okulokulda"u" kalın → "-da"
kitap → kitabı-p → -byumuşama (consonant alternation)
ağaç → ağacı-ç → -cyumuşama
ML açısından sonuç: Aynı semantik ek farklı yüzey formlarına bürünür. Tokenizer eğer morfoloji-farkındalı değilse "
-de
" ve "
-da
"yı iki ayrı token sayar; model arasındaki ilişkiyi öğrenmek zorunda kalır.

3. Cümle Yapısı: SOV vs SVO#

Türkçe SOV (Subject-Object-Verb): "Ali kitabı okudu" (Ali / book / read). İngilizce SVO: "Ali read the book".
Çoğu Transformer İngilizce'nin SVO yapısına aşinadır; Türkçe SOV cümlelerde attention pattern öğrenmek için ekstra veri gerekir.

4. Düşük Kaynak (Low-Resource)#

DilCommon Crawl yüzdesiWikipedia makale sayısı
İngilizce~46%6.7M
İspanyolca~5%1.9M
Almanca~5%2.9M
Türkçe~0.7%600K
Sonuç: Multilingual modeller (Llama, Qwen, Gemini) Türkçe'de İngilizce kalitesinin %60-80'ini alır. Türkçe-özel fine-tuning veya Türkçe-öncelikli model (TURNA, Kumru) bu açığı kapatır.

5. Karakter Setleri ve Türkçe'ye Özel Karakterler#

ı, İ, ş, ğ, ç, ö, ü
— modern UTF-8 ile sorun yok ama case-folding zor:
I
küçük hali
ı
,
İ
küçük hali
i
. İngilizce yazılım rutinleri bu farkı bilmez; bug kaynağı.
Pratik:
# Yanlış "İSTANBUL".lower() # 'i̇stanbul' — kombinasyonel karakter, hatalı # Doğru import locale locale.setlocale(locale.LC_ALL, 'tr_TR.UTF-8') "İSTANBUL".lower() # 'istanbul' # Veya manuel 'İSTANBUL'.translate(str.maketrans('İIıi', 'iiıı'))

🔤 Türkçe Tokenization — Hangi Yöntem Hangi Görev İçin?#

Bir LLM'in Türkçe performansının %30-50'si tokenizer kalitesine bağlı.
python
# Aynı Türkçe cümleyi 5 farklı tokenizer'da karşılaştır
from transformers import AutoTokenizer
 
text = "Çekoslovakyalılaştıramadıklarımızdan mısınız?"
 
tokenizers = {
"GPT-4 (cl100k_base)": "cl100k_base", # tiktoken
"Llama 3 (BPE)": "meta-llama/Meta-Llama-3-8B",
"Turkish BERT": "dbmdz/bert-base-turkish-cased",
"TURNA (Boğaziçi)": "boun-tabi-LMG/turna_3b",
"Trendyol-LLM-7b": "Trendyol/Trendyol-LLM-7b-base",
}
 
print(f"Cümle: {text}")
print(f"Karakter sayısı: {len(text)}")
print()
print(f"{'Tokenizer':<28} {'Token sayısı':>14} {'Verim':>10}")
print("-" * 56)
 
for name, model in tokenizers.items():
tok = AutoTokenizer.from_pretrained(model)
tokens = tok.tokenize(text)
ratio = len(text) / len(tokens)
print(f"{name:<28} {len(tokens):>14} {ratio:>8.2f} char/tok")
 
# Beklenen sonuç (yaklaşık):
# GPT-4 (cl100k_base) ~25 token ~2.0 char/tok (kötü)
# Llama 3 (BPE) ~20 token ~2.5 char/tok (orta)
# Turkish BERT ~8 token ~6.0 char/tok (iyi)
# TURNA ~6 token ~8.0 char/tok (çok iyi)
# Trendyol-LLM-7b ~7 token ~7.0 char/tok (çok iyi)
 
Aynı kelime, farklı tokenizer'larda 6-25 token. Türkçe görevlerde **token-başına maliyet ~3-4x düşebilir** — bu doğrudan API faturana yansır.
💰 Pratik etki: API maliyetinde 2-4x fark
GPT-4 kullanarak Türkçe işlem yapıyorsan, aynı metin İngilizce'ye göre 2-4x daha fazla token'a bölünür. Aynı RAG sistemi İngilizce'de aylık 5Kc\cekerkenTu¨rkc\cede5K çekerken Türkçe'de 15-20K çekebilir. Çözüm: (1) Token sayısını izle, (2) Türkçe-optimize edilmiş tokenizer'ı olan model seç (Anthropic Claude bu konuda görece iyi), (3) Self-host'a geçiyorsan Trendyol-LLM gibi Türkçe-öncelikli tokenizer'lı model seç.

🤖 Türkçe LLM Ekosistemi (2026 Mayıs) — Kapsamlı Karşılaştırma#

ModelGeliştiriciYılParamMimariLisansEn İyi Görev
TURNABoğaziçi BOUN-TABI-LMG20231.1BUL2 encoder-decoderAçıkÇeviri, özet
Kanarya-2BKoç Üniversitesi20232BGPT-J decoder-onlyAçıkAkademik baseline
cosmosGPTYTÜ-CE-COSMOS2024~1BGPT-2 monolingualAçıkTürkçe-saf üretim
Trendyol-LLM-7b-baseTrendyol Tech2024-027BLlama 2 fine-tuneAçık (TR/EN)Üretim, sohbet
Trendyol-LLM-7b-chatTrendyol Tech20247BLlama 2 + SFT/DPOAçıkAsistan
Trendyol-LLM-70bTrendyol Tech202470BLlama 2 fine-tuneAçıkÜst-seviye kalite
Trendyol-LLM-CybersecTrendyol Tech2024-2025variesLlama 2 + cybersec dataAçıkGüvenlik analizi
Kumru-2BTurna AI / VNGRS2025-102BYeni nesil decoderAçıkTürkçe-öncelikli (en kapsamlı)
dbmdz BERTurkBavarian State Library2019-2021110M-340MBERT (encoder)AçıkNER, klasifikasyon
Ek not — Frontier kapalı modeller: Claude Opus 4, GPT-5, Gemini 2 Pro hâlâ Türkçe'de en iyi kalite veriyor; sadece veri gizliliği veya self-host gerekiyorsa açık modellere bak. Genel kural: frontier API'lar Türkçe'de açık modellerden %20-40 önde (eğitim verisi avantajı).

🛠️ Türkçe için RAG Sistemi Kurmak — Pratik Pipeline#

Aşağıda, Türkçe doküman tabanı üzerine RAG sistemi kurmanın somut adımları:
Sorun: PDF'ler Türkçe karakterleri (ı, İ, ş, ğ) yanlış okuyabilir.
Araçlar (en iyiden en kötüye):
  1. unstructured
    +
    pdfminer.six
    — modern, Türkçe iyi
  2. pdfplumber
    — tablo + metin, hızlı
  3. pymupdf (fitz)
    — performant
  4. PyPDF2
    — eski, Türkçe sorunlu (kullanma)
Tarama PDF (image-based) ise:
  • Tesseract OCR (Türkçe dil paketi yüklü:
    tesseract-ocr-tur
    )
  • PaddleOCR (Türkçe desteği daha iyi, 2024+)
  • Google Cloud Vision veya AWS Textract (managed, daha kaliteli ama maliyetli)
  • Claude/GPT-4 vision — son çare, çok pahalı
import pdfplumber with pdfplumber.open("turkce.pdf") as pdf: text = "\n".join(page.extract_text() for page in pdf.pages)

📏 Türkçe LLM Evaluation — Hangi Benchmark, Ne Ölçer?#

Global benchmark'lar Türkçe için yeterli değil — çoğu makine çevirisi, gürültülü.

Türkçe-özel açık benchmark'lar (2024-2026)#

BenchmarkBoyutNe ölçer?
TR-MMLU~14K soru, 57 alanGenel bilgi (MMLU'nun Türkçe yeniden, akademik gözden geçirme ile)
Belebele-tr900 paragraf MCOkuma anlama (Meta'nın 122 dilli benchmark'ı)
TruthfulQA-tr800+ soruHalüsinasyon eğilimi
XCOPA-tr600 soruAkıl yürütme (sebep-sonuç)
TurkishWinoGrande~1KCommon sense reasoning
TR-Hellaswag~10KCümle tamamlama
TR-AGIEval~5KProfesyonel sınav soruları (üniversiteye giriş vb.)

Açık leaderboard#

OpenLLMTurkishLeaderboard (HuggingFace) — her ay güncellenir; modelini gönderebilirsin.
URL örneği:
https://huggingface.co/spaces/.../open-llm-tr-leaderboard

Pratik tavsiye: kendi altın kümen#

Public benchmark'lar genel; gerçek üretim için kendi 100-300 sorulu altın kümen olmalı.
Adımlar:
  1. 100 gerçek kullanıcı sorusu topla (3-6 hafta production)
  2. Her birinin ideal yanıtını uzman olarak yaz
  3. 3-5 modelde çalıştır
  4. LLM-as-judge (Claude Opus / GPT-5) + manual review
  5. Her release için bu suite'i çalıştır → regression engelle
ROI: Eval suite kurmadan production'a alma. Eval olmadan model değiştiremezsin.

💼 Türkiye'de AI Kariyer Yolları (2026 Mayıs Pazarı)#

Türkiye AI piyasası arz az, talep çok — özellikle LLM ürünleştirme tarafında. İşte gerçekçi yol haritası:
Beklentiler:
  • Python (
    pandas
    ,
    numpy
    ,
    scikit-learn
    ) iyi
  • En az 1 büyük ML projeyi end-to-end yapmış
  • Bir LLM (Claude/GPT/Llama) API ile prototip yapmış
  • SQL temelleri, Git
  • Kaggle/HuggingFace profili tercih sebebi
Beklenen maaş: 80-150K ₺/ay (İstanbul/Ankara), remote ABD/AB firma için $3-6K/ay
Hangi şirketler?:
  • E-ticaret tech (Trendyol, Hepsiburada, GittiGidiyor) — graduate program
  • Bankacılık (Garanti, İş Bankası, Akbank) — AI/data tracks
  • Telco (Turkcell, Türk Telekom) — AI Lab girişleri
  • Startup (VNGRS, Vispera, Sestek) — daha fazla sorumluluk, daha az maaş
Portföy önerisi: 1 ML proje (Iris benzeri klasik), 1 LLM RAG ürünü, 1 fine-tuning denemesi.

🎯 Bu derste neler öğrendik?#

✓ Türkçe NLP'nin 5 spesifik zorluğu — aglutinatif morfoloji, ünlü uyumu, SOV yapı, low-resource, karakter setleri. ✓ Tokenization etkisi — GPT-4 vs TURNA arasında 3-4x token sayısı farkı = maliyet ve performans. ✓ Türkçe LLM ekosistemi — TURNA, Kanarya, Trendyol-LLM, Kumru'nun ne zaman kullanılacağı. ✓ Türkçe RAG pipeline — extraction'dan generation'a 7 adım, her birinde Türkçe spesifik tercihler. ✓ Türkçe eval — TR-MMLU, Belebele-tr, TruthfulQA-tr ve kendi altın kümen. ✓ Türkiye AI iş piyasası — junior/mid/senior beklentiler, gerçek maaş aralıkları.
Sıradaki ders: AI Güvenliği Derinlemesine — adversarial attacks, red teaming, jailbreaking ve production savunma stratejileri.

Sık Sorulan Sorular

Çoğu use case için frontier API (Claude Opus 4, GPT-5) Türkçe'de iyi sonuç verir — fine-tuning gereksiz. Fine-tuning sadece şu durumlarda mantıklı: (1) çok dar bir domain dili (hukuk, tıp, finans Türkçe), (2) marka tonu/stili kalıcı öğretmek, (3) veri gizliliği nedeniyle self-host şart. RAG çoğu durumda fine-tuning'den ucuz ve esnek.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler