Türkçe için Yapay Zeka Derinlemesine: NLP, LLM ve Pratik Pipeline
Türkçe NLP'nin spesifik zorlukları (aglutinatif morfoloji, ünlü uyumu, tokenization patlaması), Türkçe-özel açık LLM ekosistemi (TURNA, Kanarya, Kumru, Trendyol-LLM), Türkçe RAG kurma rehberi, ve Türkiye AI ekosisteminde nasıl kariyer kuracağınız üzerine kapsamlı bir bölüm. Bu ders Türkçe için bir AI sistemi inşa edecek herkes için zorunlu okuma.
Şükrü Yusuf KAYA
32 dakikalık okuma
Orta🇹🇷 Bu dersin amacı
Önceki dersler global ve teorikti. Bu derste Türkçe'ye özel teknik zorlukları, açık kaynak Türkçe LLM ekosistemini, Türkçe RAG sistemi kurmanın pratik adımlarını ve Türkiye'deki AI kariyer yollarını uçtan uca işleyeceğiz. Bu derste 12 spesifik soru-cevap, 4 kod örneği ve 3 vaka çalışması var.
Neden ayrı bir 'Türkçe AI' dersi?#
Türkçe dünyadaki en zor NLP dillerinden biridir. İngilizce için iyi çalışan bir pipeline, Türkçe'ye uyarlandığında ekseriyetle %20-40 performans kaybı yaşar. Sebebi tek bir kelimede: morfoloji.
Ayrıca Türkçe low-resource language kategorisindedir — İngilizce'nin %1'inden az eğitim verisi var. Bu hem zorluk hem fırsat: Türkçe'de iyi çalışan bir model kurmak global rakipler için zor; senin için competitive moat.
Klasik örnek:
Çekoslovakyalılaştıramadıklarımızdan mısınız?Bu tek "kelime" şu eklerden oluşur:
- — kök (özel isim)
Çekoslovak - — yer/yön belirteci
-ya - — ait olma
-lı - — dönüştürme fiili
-laş - — ettirme
-tır - — yetersizlik
-ama - — geçmiş zaman partisip
-dık - — çoğul
-lar - — 1. çoğul iyelik
-ımız - — ablatif
-dan - — soru
-mı - — 2. çoğul kişi
-sınız
İngilizce karşılığı tam bir cümledir: "Are you one of those whom we couldn't make become Czechoslovakian?"
ML açısından sonuç: Tek bir kökten binlerce yüzey biçimi üretilebilir. Kelime-bazlı tokenization sözcük dağarcığını patlatır.
2. Ünlü ve Ünsüz Uyumları#
Türkçe'de vowel harmony (ünlü uyumu) ve consonant alternation (ünsüz değişmesi) ek formlarını değiştirir:
| Kelime | Ek (-de/-da | Sebep |
|---|---|---|
| ev | evde | "e" ince → "-de" |
| okul | okulda | "u" kalın → "-da" |
| kitap → kitabı | -p → -b | yumuşama (consonant alternation) |
| ağaç → ağacı | -ç → -c | yumuşama |
ML açısından sonuç: Aynı semantik ek farklı yüzey formlarına bürünür. Tokenizer eğer morfoloji-farkındalı değilse "" ve ""yı iki ayrı token sayar; model arasındaki ilişkiyi öğrenmek zorunda kalır.
-de-da3. Cümle Yapısı: SOV vs SVO#
Türkçe SOV (Subject-Object-Verb): "Ali kitabı okudu" (Ali / book / read).
İngilizce SVO: "Ali read the book".
Çoğu Transformer İngilizce'nin SVO yapısına aşinadır; Türkçe SOV cümlelerde attention pattern öğrenmek için ekstra veri gerekir.
4. Düşük Kaynak (Low-Resource)#
| Dil | Common Crawl yüzdesi | Wikipedia makale sayısı |
|---|---|---|
| İngilizce | ~46% | 6.7M |
| İspanyolca | ~5% | 1.9M |
| Almanca | ~5% | 2.9M |
| Türkçe | ~0.7% | 600K |
Sonuç: Multilingual modeller (Llama, Qwen, Gemini) Türkçe'de İngilizce kalitesinin %60-80'ini alır. Türkçe-özel fine-tuning veya Türkçe-öncelikli model (TURNA, Kumru) bu açığı kapatır.
5. Karakter Setleri ve Türkçe'ye Özel Karakterler#
ı, İ, ş, ğ, ç, ö, üIıİiPratik:
# Yanlış "İSTANBUL".lower() # 'i̇stanbul' — kombinasyonel karakter, hatalı # Doğru import locale locale.setlocale(locale.LC_ALL, 'tr_TR.UTF-8') "İSTANBUL".lower() # 'istanbul' # Veya manuel 'İSTANBUL'.translate(str.maketrans('İIıi', 'iiıı'))
🔤 Türkçe Tokenization — Hangi Yöntem Hangi Görev İçin?#
Bir LLM'in Türkçe performansının %30-50'si tokenizer kalitesine bağlı.
python
# Aynı Türkçe cümleyi 5 farklı tokenizer'da karşılaştırfrom transformers import AutoTokenizer text = "Çekoslovakyalılaştıramadıklarımızdan mısınız?" tokenizers = { "GPT-4 (cl100k_base)": "cl100k_base", # tiktoken "Llama 3 (BPE)": "meta-llama/Meta-Llama-3-8B", "Turkish BERT": "dbmdz/bert-base-turkish-cased", "TURNA (Boğaziçi)": "boun-tabi-LMG/turna_3b", "Trendyol-LLM-7b": "Trendyol/Trendyol-LLM-7b-base",} print(f"Cümle: {text}")print(f"Karakter sayısı: {len(text)}")print()print(f"{'Tokenizer':<28} {'Token sayısı':>14} {'Verim':>10}")print("-" * 56) for name, model in tokenizers.items(): tok = AutoTokenizer.from_pretrained(model) tokens = tok.tokenize(text) ratio = len(text) / len(tokens) print(f"{name:<28} {len(tokens):>14} {ratio:>8.2f} char/tok") # Beklenen sonuç (yaklaşık):# GPT-4 (cl100k_base) ~25 token ~2.0 char/tok (kötü)# Llama 3 (BPE) ~20 token ~2.5 char/tok (orta)# Turkish BERT ~8 token ~6.0 char/tok (iyi)# TURNA ~6 token ~8.0 char/tok (çok iyi)# Trendyol-LLM-7b ~7 token ~7.0 char/tok (çok iyi) Aynı kelime, farklı tokenizer'larda 6-25 token. Türkçe görevlerde **token-başına maliyet ~3-4x düşebilir** — bu doğrudan API faturana yansır.
💰 Pratik etki: API maliyetinde 2-4x fark
GPT-4 kullanarak Türkçe işlem yapıyorsan, aynı metin İngilizce'ye göre 2-4x daha fazla token'a bölünür. Aynı RAG sistemi İngilizce'de aylık 15-20K çekebilir. Çözüm: (1) Token sayısını izle, (2) Türkçe-optimize edilmiş tokenizer'ı olan model seç (Anthropic Claude bu konuda görece iyi), (3) Self-host'a geçiyorsan Trendyol-LLM gibi Türkçe-öncelikli tokenizer'lı model seç.
🤖 Türkçe LLM Ekosistemi (2026 Mayıs) — Kapsamlı Karşılaştırma#
| Model | Geliştirici | Yıl | Param | Mimari | Lisans | En İyi Görev |
|---|---|---|---|---|---|---|
| TURNA | Boğaziçi BOUN-TABI-LMG | 2023 | 1.1B | UL2 encoder-decoder | Açık | Çeviri, özet |
| Kanarya-2B | Koç Üniversitesi | 2023 | 2B | GPT-J decoder-only | Açık | Akademik baseline |
| cosmosGPT | YTÜ-CE-COSMOS | 2024 | ~1B | GPT-2 monolingual | Açık | Türkçe-saf üretim |
| Trendyol-LLM-7b-base | Trendyol Tech | 2024-02 | 7B | Llama 2 fine-tune | Açık (TR/EN) | Üretim, sohbet |
| Trendyol-LLM-7b-chat | Trendyol Tech | 2024 | 7B | Llama 2 + SFT/DPO | Açık | Asistan |
| Trendyol-LLM-70b | Trendyol Tech | 2024 | 70B | Llama 2 fine-tune | Açık | Üst-seviye kalite |
| Trendyol-LLM-Cybersec | Trendyol Tech | 2024-2025 | varies | Llama 2 + cybersec data | Açık | Güvenlik analizi |
| Kumru-2B | Turna AI / VNGRS | 2025-10 | 2B | Yeni nesil decoder | Açık | Türkçe-öncelikli (en kapsamlı) |
| dbmdz BERTurk | Bavarian State Library | 2019-2021 | 110M-340M | BERT (encoder) | Açık | NER, klasifikasyon |
Ek not — Frontier kapalı modeller: Claude Opus 4, GPT-5, Gemini 2 Pro hâlâ Türkçe'de en iyi kalite veriyor; sadece veri gizliliği veya self-host gerekiyorsa açık modellere bak. Genel kural: frontier API'lar Türkçe'de açık modellerden %20-40 önde (eğitim verisi avantajı).
🛠️ Türkçe için RAG Sistemi Kurmak — Pratik Pipeline#
Aşağıda, Türkçe doküman tabanı üzerine RAG sistemi kurmanın somut adımları:
Sorun: PDF'ler Türkçe karakterleri (ı, İ, ş, ğ) yanlış okuyabilir.
Araçlar (en iyiden en kötüye):
- +
unstructured— modern, Türkçe iyipdfminer.six - — tablo + metin, hızlı
pdfplumber - — performant
pymupdf (fitz) - — eski, Türkçe sorunlu (kullanma)
PyPDF2
Tarama PDF (image-based) ise:
- Tesseract OCR (Türkçe dil paketi yüklü: )
tesseract-ocr-tur - PaddleOCR (Türkçe desteği daha iyi, 2024+)
- Google Cloud Vision veya AWS Textract (managed, daha kaliteli ama maliyetli)
- Claude/GPT-4 vision — son çare, çok pahalı
import pdfplumber with pdfplumber.open("turkce.pdf") as pdf: text = "\n".join(page.extract_text() for page in pdf.pages)
📏 Türkçe LLM Evaluation — Hangi Benchmark, Ne Ölçer?#
Global benchmark'lar Türkçe için yeterli değil — çoğu makine çevirisi, gürültülü.
Türkçe-özel açık benchmark'lar (2024-2026)#
| Benchmark | Boyut | Ne ölçer? |
|---|---|---|
| TR-MMLU | ~14K soru, 57 alan | Genel bilgi (MMLU'nun Türkçe yeniden, akademik gözden geçirme ile) |
| Belebele-tr | 900 paragraf MC | Okuma anlama (Meta'nın 122 dilli benchmark'ı) |
| TruthfulQA-tr | 800+ soru | Halüsinasyon eğilimi |
| XCOPA-tr | 600 soru | Akıl yürütme (sebep-sonuç) |
| TurkishWinoGrande | ~1K | Common sense reasoning |
| TR-Hellaswag | ~10K | Cümle tamamlama |
| TR-AGIEval | ~5K | Profesyonel sınav soruları (üniversiteye giriş vb.) |
Açık leaderboard#
OpenLLMTurkishLeaderboard (HuggingFace) — her ay güncellenir; modelini gönderebilirsin.
URL örneği:
https://huggingface.co/spaces/.../open-llm-tr-leaderboardPratik tavsiye: kendi altın kümen#
Public benchmark'lar genel; gerçek üretim için kendi 100-300 sorulu altın kümen olmalı.
Adımlar:
- 100 gerçek kullanıcı sorusu topla (3-6 hafta production)
- Her birinin ideal yanıtını uzman olarak yaz
- 3-5 modelde çalıştır
- LLM-as-judge (Claude Opus / GPT-5) + manual review
- Her release için bu suite'i çalıştır → regression engelle
ROI: Eval suite kurmadan production'a alma. Eval olmadan model değiştiremezsin.
💼 Türkiye'de AI Kariyer Yolları (2026 Mayıs Pazarı)#
Türkiye AI piyasası arz az, talep çok — özellikle LLM ürünleştirme tarafında. İşte gerçekçi yol haritası:
Beklentiler:
- Python (,
pandas,numpy) iyiscikit-learn - En az 1 büyük ML projeyi end-to-end yapmış
- Bir LLM (Claude/GPT/Llama) API ile prototip yapmış
- SQL temelleri, Git
- Kaggle/HuggingFace profili tercih sebebi
Beklenen maaş: 80-150K ₺/ay (İstanbul/Ankara), remote ABD/AB firma için $3-6K/ay
Hangi şirketler?:
- E-ticaret tech (Trendyol, Hepsiburada, GittiGidiyor) — graduate program
- Bankacılık (Garanti, İş Bankası, Akbank) — AI/data tracks
- Telco (Turkcell, Türk Telekom) — AI Lab girişleri
- Startup (VNGRS, Vispera, Sestek) — daha fazla sorumluluk, daha az maaş
Portföy önerisi: 1 ML proje (Iris benzeri klasik), 1 LLM RAG ürünü, 1 fine-tuning denemesi.
🎯 Bu derste neler öğrendik?#
✓ Türkçe NLP'nin 5 spesifik zorluğu — aglutinatif morfoloji, ünlü uyumu, SOV yapı, low-resource, karakter setleri.
✓ Tokenization etkisi — GPT-4 vs TURNA arasında 3-4x token sayısı farkı = maliyet ve performans.
✓ Türkçe LLM ekosistemi — TURNA, Kanarya, Trendyol-LLM, Kumru'nun ne zaman kullanılacağı.
✓ Türkçe RAG pipeline — extraction'dan generation'a 7 adım, her birinde Türkçe spesifik tercihler.
✓ Türkçe eval — TR-MMLU, Belebele-tr, TruthfulQA-tr ve kendi altın kümen.
✓ Türkiye AI iş piyasası — junior/mid/senior beklentiler, gerçek maaş aralıkları.
Sıradaki ders: AI Güvenliği Derinlemesine — adversarial attacks, red teaming, jailbreaking ve production savunma stratejileri.
Sık Sorulan Sorular
Çoğu use case için frontier API (Claude Opus 4, GPT-5) Türkçe'de iyi sonuç verir — fine-tuning gereksiz. Fine-tuning sadece şu durumlarda mantıklı: (1) çok dar bir domain dili (hukuk, tıp, finans Türkçe), (2) marka tonu/stili kalıcı öğretmek, (3) veri gizliliği nedeniyle self-host şart. RAG çoğu durumda fine-tuning'den ucuz ve esnek.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...