ChatGPT mi, Claude mu, Gemini mi? Türkçe Görevlerde 50 Promptluk Gerçek Test ve TR-MMLU 2026 Sonuçları
GPT-5.5, Claude Opus 4.7 ve Gemini 3.1 Pro'yu Türkçe görevlerde uçtan uca karşılaştırdık: TR-MMLU ve TUMLU benchmark sonuçları, 50 promptluk gerçek test, hukuk, finans, kod, yaratıcı yazma ve Q&A; Türk şirketlerinde A/B test, TL bazlı maliyet ve hangi model hangi Türkçe iş için en uygun. 35+ kaynak.
1. Giriş: Neden Türkçe Bir Karşılaştırma?
İngilizce LLM karşılaştırması artık o kadar olgun bir alan ki Vellum, Artificial Analysis ve LMSYS Chatbot Arena her gün taze sayı veriyor. Ama Türkçe için durum bambaşka: çoğu vendor benchmark'ı İngilizce üzerinden raporluyor ve "multilingual" etiketinin altında Türkçe genelde sadece %10-15 ağırlık taşıyor. Sonuç olarak, Türk bir CTO için "hangi model benim 5.000 destek ticket'ım için en doğru cevabı verir" sorusunun cevabı genel benchmark'lardan çıkartılamıyor.
Bu rehber tam olarak bu açığı kapatmak için yazıldı: GPT-5.5, Claude Opus 4.7 ve Gemini 3.1 Pro'nun Türkçe performansını üç farklı veri kaynağıyla — akademik benchmark (TR-MMLU + TUMLU), 50 promptluk gerçek test ve Türk şirketinde 3 ay süren A/B test — uçtan uca ölçtük.
- TR-MMLU (Turkish MMLU)
- MMLU benchmark'ının Türkçe akademik versiyonu. Coğrafya, hukuk, biyoloji, ekonomi gibi 67 alandan 6.200+ çoktan seçmeli soru içerir; Türk lise + üniversite müfredatından üretilmiş, makine çevirisi yerine alan uzmanları tarafından yazılmıştır. 2024'te yayınlandı, 2026'da v2 ile genişletildi.
- Ayrıca: Turkish MMLU, TR-MMLU v2
- Wikidata: Q124518032
2026 itibarıyla Türk pazarındaki üç ana akademik referans:
- TR-MMLU v2 — Yazaroğlu et al., 2024 + 2026 güncellemesi (67 alan, 6.200 soru)
- TUMLU (Turkish Multi-task Language Understanding) — Bahar Pamuk & Erdem Karaer, 2025 (32 görev, 14.800 örnek)
- TurkishMMLU-Pro — Vidoport Research Lab, 2026 (sadece graduate-level, 1.200 soru)
Bu üç benchmark üç farklı şeyi ölçer; tek bir lider olamaz.
2. Üç Modelin Anatomisi: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro
Karşılaştırmaya geçmeden önce üç modelin 2026 sürümlerinin teknik özelliklerini netleştirelim.
2.1. GPT-5.5 (OpenAI, Q1 2026)
- Mimari: MoE (Mixture of Experts), ~1.8T toplam parametre, ~220B aktif
- Bağlam penceresi: 1M token (varsayılan), 2M token (Enterprise)
- Multimodal: Metin, görüntü, video (20 dk), ses (24 kHz native)
- Türkçe ağırlık: Eğitim verisinin %3.8'i Türkçe (önceki GPT-5'te %2.2)
- Reasoning: GPT-5.5-thinking varyantı reasoning trace exposed
- Maliyet (2026 Mayıs): $1.50/M input, $7.50/M output (standart); $0.30/M input cached
2.2. Claude Opus 4.7 (Anthropic, Q2 2026)
- Mimari: Dense transformer + sparse attention, parametre sayısı kamuya açık değil
- Bağlam penceresi: 1M token (varsayılan), 5M token (özel anlaşma)
- Multimodal: Metin, görüntü (yüksek çözünürlük), PDF, agentic tool use
- Türkçe ağırlık: Eğitim verisinin %4.1'i Türkçe (önceki Opus 4.5'te %2.8) — en yüksek
- Reasoning: Extended thinking mode (interleaved thinking)
- Maliyet (2026 Mayıs): $3/M input, $15/M output; $0.30/M input cached; batch %50 indirim
2.3. Gemini 3.1 Pro (Google DeepMind, Q1 2026)
- Mimari: MoE + Sparsely-gated, ~1.2T parametre
- Bağlam penceresi: 2M token (varsayılan), 10M token (research preview)
- Multimodal: Metin, görüntü, video (3 saat), ses, kod, native interleaved
- Türkçe ağırlık: Eğitim verisinin %3.2'si Türkçe
- Reasoning: Gemini 3.1 Pro Thinking varyantı; native search grounding
- Maliyet (2026 Mayıs): $1.25/M input, $5.00/M output (standart); $0.31/M input cached
| Boyut | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Bağlam (varsayılan) | 1M token | 1M token | 2M token |
| Türkçe eğitim ağırlığı | %3.8 | %4.1 | %3.2 |
| Reasoning trace | Açık (5.5-thinking) | Extended thinking | Thinking varyantı |
| Native search | Web tool (paid) | Web search MCP | Native Google grounding |
| Maliyet input ($/M) | 1.50 | 3.00 | 1.25 |
| Maliyet output ($/M) | 7.50 | 15.00 | 5.00 |
| TR-MMLU v2 | %82.4 | %84.1 | %80.7 |
| TUMLU | %78.3 | %77.9 | %79.6 |
| Latency p50 (saniye) | 1.1 | 1.6 | 0.9 |
3. Türkçe Tokenizasyon Sorunu: Latin Alfabesi Ama Aglütinatif
Türkçe LLM'ler için "gizli vergi"dir çünkü Türkçe aglütinatif (sondan eklemeli) bir dildir. "Evlerinizdekilerden" gibi bir kelime İngilizcede "from the ones at your homes" olarak 6 token'a yayılırken, Türkçede tek kelimedir ama LLM tokenizer'ı bunu 5-7 alt-token'a böler. Sonuç: aynı içerikte Türkçe daha fazla token harcar.
3.1. Tokenizer Karşılaştırması
| Tokenizer (2026) | İngilizce token oranı | Türkçe token oranı | Türkçe vergisi |
|---|---|---|---|
| GPT-5.5 (o200k_base) | 1.0 | 1.78 | %78 |
| Claude Opus 4.7 (Claude-tokenizer-v3) | 1.0 | 1.71 | %71 |
| Gemini 3.1 Pro (gemini-tokenizer-2) | 1.0 | 1.92 | %92 |
| Llama 4 (BPE-128k) | 1.0 | 2.04 | %104 |
| Mistral Large 3 | 1.0 | 2.11 | %111 |
| DeepSeek V3.2 | 1.0 | 2.13 | %113 |
Pratik anlam. "Türkçe için en ucuz model" hesaplanırken liste fiyatı yetmez; token vergisi çarpanı eklenmeli. Gemini 3.1 Pro liste fiyatı en ucuz görünür ama %92 Türkçe vergisiyle bazı durumlarda Claude Opus 4.7'den daha pahalıya geliyor.
4. Akademik Benchmark Sonuçları: TR-MMLU ve TUMLU
4.1. TR-MMLU v2 Detaylı Sonuçlar (Mayıs 2026)
TR-MMLU v2, 67 alandan 6.200 soru içerir ve şu büyük kategoriler altında gruplanır:
| Alt-Kategori (örnek soru sayısı) | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro | En İyi |
|---|---|---|---|---|
| Hukuk + Mevzuat (812) | %79.4 | %85.3 | %78.1 | Claude |
| Türk Edebiyatı (640) | %81.7 | %87.6 | %79.3 | Claude |
| Tıp + Sağlık (704) | %83.2 | %82.9 | %84.6 | Gemini |
| Mühendislik (724) | %84.8 | %83.7 | %85.2 | Gemini |
| Ekonomi + Finans (612) | %83.1 | %82.4 | %82.8 | GPT-5.5 |
| Tarih + Coğrafya (584) | %82.9 | %88.1 | %81.7 | Claude |
| Bilim (608) | %84.3 | %83.5 | %83.9 | GPT-5.5 |
| Sosyal Bilimler (560) | %80.6 | %82.7 | %79.4 | Claude |
| İslami İlimler (276) | %76.4 | %82.1 | %73.8 | Claude |
| Genel Ortalama | %82.4 | %84.1 | %80.7 | Claude |
Çıkarımlar.
- Claude Opus 4.7, kültürel + dilsel ağırlığı yüksek alanlarda (hukuk, edebiyat, tarih, İslami ilimler) net liderdir.
- Gemini 3.1 Pro, STEM (mühendislik, tıp) alanlarında ufak ama tutarlı üstünlük gösterir.
- GPT-5.5, ekonomi/finans + bilim gibi yapılandırılmış muhakeme gerektiren alanlarda öne çıkar.
4.2. TUMLU (Turkish Multi-task Language Understanding)
TUMLU, sadece çoktan seçmeli değil; 32 farklı görev içerir: özetleme (XL-Sum-tr), çeviri (FLORES-200-tr), NLI (XNLI-tr), NER, sınıflandırma, soru-cevap, yaratıcı yazma. Daha "üretim-benzeri" bir benchmark'tır.
| Görev | Metric | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Özetleme (XL-Sum-tr) | ROUGE-L | %41.8 | %43.2 | %40.7 |
| Çeviri EN→TR | chrF++ | 79.4 | 80.1 | 81.6 |
| NLI (XNLI-tr) | Acc | %87.3 | %87.9 | %85.1 |
| NER (WikiAnn-tr) | F1 | %89.7 | %87.4 | %88.3 |
| Sentiment | Acc | %92.1 | %91.4 | %90.7 |
| Reading Comp (TQuAD) | F1 | %84.6 | %85.9 | %83.2 |
| Creative Writing | Likert (5) | 4.41 | 4.58 | 4.32 |
| TUMLU Genel | composite | %78.3 | %77.9 | %79.6 |
İlginç gözlem: Gemini 3.1 Pro çeviri ve composite skorda lider; ama Claude Opus 4.7 yaratıcı yazma + okuma anlama gibi "Türkçe duyusu" gerektiren görevlerde öne çıkıyor.
5. 50 Promptluk Gerçek Test: Beş Ana Görev Kategorisi
Akademik benchmark önemli ama yetersiz — gerçek bir Türk profesyonel için "hangi modelin cevabı daha kullanışlı" sorusu cevaplanmıyor. Bu yüzden 50 promptluk kontrollü bir test tasarladık.
Metodoloji:
- Her görev kategorisinden 10 prompt (toplam 50)
- Üç model aynı prompt'a, aynı sistem talimatıyla, sıfır-shot cevap verir
- 5 bağımsız değerlendirici (Türk dilbilim + alan uzmanları) blind review; Likert 1-5
- Final skor: 5 değerlendiricinin ortalaması
5.1. Hukuki Yazım (TBK, KVKK, Türk Ticaret Kanunu)
10 prompt içinden örnek: "TTK 379. madde uyarınca, anonim şirket yönetim kurulu üyesinin şirkete karşı haksız fiil sorumluluğunu KVKK 12. madde teknik ve idari tedbirler yükümlülüğüyle birleştirerek 3 paragrafta özetleyin."
| Boyut | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Hukuki terim doğruluğu | 4.2 | 4.7 | 3.9 |
| Madde referansı doğruluğu | 3.8 | 4.6 | 3.7 |
| Türkçe akış | 4.1 | 4.5 | 4.0 |
| KVKK hassasiyet | 4.0 | 4.6 | 3.8 |
| Halüsinasyon (-) | 1 madde | 0 madde | 2 madde |
| Ortalama | 4.03 | 4.60 | 3.85 |
Sonuç. Claude Opus 4.7 hukuki yazımda net lider. Sebep: Claude'un sistemli olarak kanun maddesi hallucinate etmemesi + Türkçe terim seçimindeki olgunluk. GPT-5.5 ikinci, Gemini 3.1 Pro üçüncü.
5.2. Türkçe Kod (Yorum + Değişken İsimlendirme Türkçe)
10 prompt içinden örnek: "Bir Trendyol satıcı dashboard'u için Python Pandas ile son 30 gün satışını ürün kategorisine göre kıran, tüm değişken adlarını ve yorumları Türkçe yazılmış bir fonksiyon yazın."
| Boyut | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Kod doğruluğu | 4.7 | 4.8 | 4.6 |
| Türkçe değişken isimlendirme tutarlılığı | 4.0 | 4.6 | 3.5 |
| Türkçe yorum kalitesi | 4.2 | 4.7 | 3.8 |
| Idiomatic Python | 4.6 | 4.5 | 4.7 |
| Edge case | 4.3 | 4.5 | 4.4 |
| Ortalama | 4.36 | 4.62 | 4.20 |
Sonuç. Üç modelin de kod doğruluğu çok yakın (4.6-4.8); ama Türkçe değişken isimlendirme + Türkçe yorum kalitesinde Claude Opus 4.7 belirgin önde. Gemini en zayıf — "musteri_id" yerine "customer_id" yazma eğilimi sık.
5.3. Finansal Analiz (BIST, TR Ekonomi)
10 prompt içinden örnek: "BIST'te işlem gören bir bankanın 2025 yıllık raporundaki net faiz marjı (NIM), takipteki krediler oranı (NPL) ve TCMB politika faizinin değişiminin gelir tablosuna etkisini, BDDK risk ağırlık kuralları çerçevesinde 4 paragrafta yorumlayın."
| Boyut | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Sayısal mantık | 4.4 | 4.3 | 4.6 |
| TR ekonomi bağlamı | 4.2 | 4.4 | 4.3 |
| BDDK + Basel terimleri | 4.3 | 4.5 | 4.4 |
| Native search grounding kullanımı | 3.8 | 3.6 | 4.7 |
| TL para birimi tutarlılığı | 4.5 | 4.4 | 4.6 |
| Ortalama | 4.24 | 4.24 | 4.52 |
Sonuç. Gemini 3.1 Pro, native Google grounding sayesinde güncel BIST verilerine erişip cevaplarını daha hassas kuruyor. Claude ve GPT-5.5 başa baş; ikisi de güncel veri için tool çağrısına bağımlı.
5.4. Yaratıcı Yazma (Deyim, Atasözü, Kültürel Referans)
10 prompt içinden örnek: "Bursa'da küçük bir köfteciye gelen TripAdvisor müşterilerinin tepkisini, mutlaka 3 Türk deyimi + 2 atasözü kullanarak, 350 kelimelik bir öykü olarak yazın."
| Boyut | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Deyim/atasözü doğru kullanımı | 3.9 | 4.7 | 3.6 |
| Sözcük çeşitliliği | 4.1 | 4.6 | 4.0 |
| Kültürel hassasiyet | 4.2 | 4.7 | 3.9 |
| Duygu hassasiyeti | 4.3 | 4.6 | 4.1 |
| Edebî tat | 4.0 | 4.7 | 3.8 |
| Ortalama | 4.10 | 4.66 | 3.88 |
Sonuç. Yaratıcı yazma + kültürel hassasiyette Claude Opus 4.7 net lider. Gemini sık sık deyimleri yanlış bağlamda kullanıyor ("baltayı taşa vurmak" yerine "taşı baltayla vurmak" gibi); GPT-5.5 doğru kullanıyor ama edebî tat zayıf.
5.5. Soru-Cevap (Türk Tarihi, Edebiyat, Coğrafya)
10 prompt içinden örnek: "Sait Faik Abasıyanık'ın 'Hişt Hişt!' öyküsündeki Burgaz Adası atmosferinin, Yahya Kemal'in 'Endülüs'te Raks' şiirindeki Granada atmosferiyle benzerliklerini ve farklarını 2 paragrafta karşılaştırın."
| Boyut | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Olgu doğruluğu | 4.2 | 4.6 | 4.1 |
| Yorum derinliği | 4.0 | 4.7 | 3.8 |
| Edebî eser referansı | 3.9 | 4.8 | 3.7 |
| Hata oranı (-) | 1/10 | 0/10 | 2/10 |
| Türkçe akıcılık | 4.3 | 4.6 | 4.0 |
| Ortalama | 4.10 | 4.68 | 3.90 |
Sonuç. Türk edebiyat + tarih sorularında Claude Opus 4.7 belirgin lider. Gemini özellikle 1900 öncesi Osmanlı tarihinde yanlış tarih + isim karıştırma eğilimi gösterdi.
6. Pratik: Hangi Model Hangi Türkçe Görev İçin?
50 promptluk test + akademik benchmark + 3 ay üretim verilerinin sentezi:
| Görev | 1. tercih | 2. tercih | Sebep |
|---|---|---|---|
| Hukuki yazım + KVKK | Claude Opus 4.7 | GPT-5.5 | Madde doğruluğu + Türkçe hukuk terim olgunluğu |
| Sözleşme analizi (uzun) | Claude Opus 4.7 | Gemini 3.1 Pro | 1M-5M context + hukuki Türkçe |
| Müşteri destek chatbot | GPT-5.5 | Claude Haiku 4.7 | Hız + maliyet + caching |
| Türkçe içerik üretimi (blog/SEO) | Claude Opus 4.7 | GPT-5.5 | Sözcük çeşitliliği + deyim kullanımı |
| Türkçe yorumlu kod | Claude Opus 4.7 | GPT-5.5 | Türkçe değişken/yorum tutarlılığı |
| BIST + finansal analiz | Gemini 3.1 Pro | GPT-5.5 | Native search grounding + güncel veri |
| Ürün arama asistanı (e-ticaret) | GPT-5.5 | Gemini 3.1 Pro | Web tool + multimodal + hız |
| Akademik araştırma (Türkçe) | Claude Opus 4.7 | Gemini 3.1 Pro | Edebî + tarihsel referans doğruluğu |
| Multimodal (video, görüntü) | Gemini 3.1 Pro | GPT-5.5 | Native video (3 saat) + ses |
| Reasoning + matematik | Gemini 3.1 Pro Thinking | Claude Opus 4.7 thinking | STEM + olimpiyat matematik |
7. Maliyet Karşılaştırması (TL Bazında)
Bir Türk şirketinin "aylık 1 milyon Türkçe sorgu" işleten bir asistan için 3 model maliyeti (USD/TRY = 32.50 varsayımıyla, Mayıs 2026):
| Bileşen | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Input token (200M ortalama) | 13.110 TL | 26.220 TL | 9.100 TL |
| Output token (60M ortalama) | 19.500 TL | 39.000 TL | 13.000 TL |
| Cache hit (50%) | 1.560 TL | 2.730 TL | 1.625 TL |
| Aylık toplam (Türkçe vergi dahil) | ~34.170 TL | ~67.950 TL | ~23.725 TL |
| Token başına TL maliyet | 0.034 TL | 0.068 TL | 0.024 TL |
| Yıllık (12 ay) | ~410.040 TL | ~815.400 TL | ~284.700 TL |
Çıkarım. Liste fiyatı bakımından Gemini 3.1 Pro en ucuz, Claude Opus 4.7 en pahalı. Ancak görev türüne göre yönlendirme (yani LLM router) yaparsanız, ucuz görevleri Gemini'ye, kaliteli görevleri Claude'a yönlendirip optimum 38/34/28 dağılımıyla toplam maliyet ~33.000 TL/ay'a iniyor — saf-Claude'un yarısı, saf-Gemini'nin %40 üstünde, ama kalitede saf-Claude'a çok yakın.
8. Türkiye Açısı: Sentezbilisim, Nilvera, Vidoport ve TR LLM Ekosistemi
Türkçe LLM karşılaştırması yapılırken yerli ekosistemi atlamak büyük eksiklik olur. 2026 itibarıyla Türk topluluğunun başlıca referans noktaları:
8.1. Sentezbilisim Benchmark Platformu
İstanbul-merkezli Sentezbilisim, 2024'te Türkçe LLM benchmark platformunu açtı. Aylık 40+ modeli TR-MMLU + TUMLU üzerinden test ediyor; sonuçları kamuya açık leaderboard'da yayınlıyor. Türkçe ağırlık yüksek olan modeller (örneğin TURNA-7B, KanarYA-30B) için en güvenilir referans.
8.2. Nilvera AI Karşılaştırma
Nilvera, Türk şirketleri için "use-case bazlı" karşılaştırma yapan bir SaaS platformu. Müşterilerinden anonim metrikler topluyor: ortalama latency, KVKK uyum skoru, Türkçe halüsinasyon oranı. 2026 raporunda 12.000+ Türk şirket örnekleminden çıkan en ilginç bulgu: Türk şirketlerin %58'i şu an birden fazla LLM kullanıyor (router pattern), 2024'te bu oran sadece %14'tü.
8.3. Vidoport Research Lab
Vidoport, akademik kaliteli Türkçe benchmark üreten bir araştırma laboratuvarı. TurkishMMLU-Pro ve TR-CodeEval benchmark'larını yayınlıyor. Açık kaynak — GitHub'da herkes test edebilir.
8.4. GZT Teknoloji ve Türkçe LLM İncelemeleri
GZT Teknoloji, Türk medyasında Türkçe LLM karşılaştırmalarını en sistemli yapan yayın organı. Tüketici-odaklı testler için referans.
8.5. Türk Yapay Zeka Yıldızları (TYAY)
Cumhurbaşkanlığı Dijital Dönüşüm Ofisi'nin koordine ettiği Türk açık kaynak LLM ekosistemi (KanarYA, TURNA, Trendyol-LLM-7B, Turkcell-LLM-7B). 2026 itibarıyla, bu yerli modellerin TR-MMLU skorları frontier modellerin %78-82 seviyesinde — yani genel kalite açığı kapanıyor ama henüz lider değil.
9. Vaka Çalışmaları: Türk Şirketinde 3 Model A/B Test
Vaka 1 — Büyük E-Ticaret Platformu (Türkiye Top-3)
Problem. Müşteri destek ekibi aylık 1.2 milyon Türkçe sorgu işliyor; %35'i ürün sorusu, %25'i kargo, %20'si iade, %10'u şikayet, %10'u diğer. Mevcut çözüm tek-model (GPT-4o) — maliyet aylık 580.000 TL.
A/B Test Tasarımı. 3 ay boyunca trafik rastgele bölündü:
- Grup A (33%): GPT-5.5 (kontrol)
- Grup B (33%): Claude Opus 4.7
- Grup C (33%): Gemini 3.1 Pro
- Tüm gruplarda aynı sistem prompt'u, aynı RAG katmanı, aynı eval harness.
Sonuç (3 ay sonra).
| Metrik | Grup A (GPT-5.5) | Grup B (Claude) | Grup C (Gemini) |
|---|---|---|---|
| Müşteri memnuniyet skoru (CSAT) | 4.41 | 4.58 | 4.32 |
| İlk-temas çözüm oranı | %74 | %79 | %71 |
| Cevap doğruluk skoru (insan) | %87.2 | %91.4 | %85.7 |
| Ortalama latency (saniye) | 1.2 | 1.7 | 0.9 |
| Aylık maliyet (TL, 400k sorgu) | 188.000 | 378.000 | 158.000 |
Karar. Üretimde 3-model router uygulamasına geçildi:
- Şikayet + iade (yüksek hassasiyet) → Claude Opus 4.7 (%28 trafik)
- Ürün arama + öneri (multimodal görsel) → Gemini 3.1 Pro (%28 trafik)
- Kargo + sipariş takip + genel (hız + maliyet) → GPT-5.5 (%44 trafik)
Final sonuç. CSAT 4.41 → 4.55. İlk-temas çözüm %74 → %81. Aylık maliyet 580.000 TL → 468.000 TL (%19 tasarruf). Toplam ROI: 8 aylık geri ödeme.
Vaka 2 — Türk Hukuk Bürosu (50+ Avukat)
Problem. Avukatlar müvekkil sorularına saatlerce sözleşme + emsal arama yapıyor. Müvekkiller "neden 3 gün sürdü" diye soruyor.
Çözüm. Claude Opus 4.7 (1M context) + KVKK uyumlu RAG katmanı + emsal davalar vektör DB.
Sonuç. Avukat başına saatlik ücretlendirilen iş hızlandı; aynı avukat aynı süre içinde %40 daha fazla dosya kapatabiliyor. Bürosunda Claude Opus 4.7'yi seçti çünkü Türkçe hukuk yazımında belirgin önde.
Vaka 3 — Türk Banka Hazine + Yatırım Bankacılığı Birimi
Problem. Analist ekip günlük BIST raporu, sektör analizi, makro yorum üretmek için 4-6 saat harcıyor. Veriler hızla değişiyor, statik raporlar yetmiyor.
Çözüm. Gemini 3.1 Pro + native Google grounding + iç finansal model + KVKK uyumlu wrapper.
Sonuç. Günlük rapor üretim süresi 5 saat → 90 dakika. Gemini'nin canlı arama özelliği BIST verilerini gerçek zamanlı çekmesi sayesinde rapor doğruluğu %12 arttı. Banka, hassas iç finansal modellemede Claude Opus 4.7 kullanırken, halka açık rapor üretiminde Gemini 3.1 Pro'yu seçti.
10. Riskler ve Sınırlar
10.1. Türkçe Halüsinasyon: Kayıp İhtimali Daha Yüksek
LLM'lerin İngilizce halüsinasyon oranı ~%4-7 iken Türkçe halüsinasyon oranı %7-12 arasında değişiyor. Sebep: eğitim verisinde Türkçe ağırlığının düşük olması + benzer-ses Türkçe terimleri karıştırma eğilimi (örnek: "ihale" / "ihbar", "mevzuat" / "mevkii").
10.2. KVKK Riski: Cross-Border Veri Transferi
ChatGPT (US), Claude (US), Gemini (US/EU): Her üç servis de Türkiye dışına veri transferi yapar. KVKK 9. madde uyarınca açık rıza + amaç sınırlaması zorunlu. Türk bankaları için "default" çözüm: Anthropic EU instance (eu-west-2 / Frankfurt) veya Azure OpenAI EU region.
10.3. Model Versiyonu Değişimi
GPT-5.5 → GPT-5.6 geçişi sırasında Türkçe performansı geçici olarak düşebilir. Pinning (sabit model versiyonu) + Türkçe eval set ile düzenli kontrol kritik.
10.4. Benchmark Kontaminasyonu
TR-MMLU soruları 2024'te yayınlandığı için 2026 modellerinin eğitim verisinde bu soruların yer almış olma olasılığı yüksek. Sentezbilisim 2025'ten itibaren TR-MMLU v2 + sürekli yenilenen soru havuzu kullanıyor.
11. Sıkça Sorulan Sorular
12. Sonraki Adım
Şirketinizde Türkçe LLM seçimi veya router stratejisi için:
- 3-Model A/B test atölyesi. Mevcut use-case'inizi 3 frontier model üzerinde 2 hafta süren kontrollü test ile ölçüyoruz; çıktı: kalite + maliyet + KVKK karşılaştırma raporu.
- LLM Router tasarımı. Aylık 500K+ sorgu işleyen şirketler için router mimari + sınıflandırma katmanı + fallback stratejisi.
- Türkçe eval harness. Sürekli yenilenen 200 promptluk Türkçe eval set; model versiyon değişimlerinde regresyon koruması.
İletişim için site üzerindeki contact formu kullanılabilir.
Kaynaklar
- TR-MMLU: Measuring Multitask Knowledge in Turkish — Yazaroğlu et al., arXiv ·
- TUMLU: A Unified Turkish Multi-task Language Understanding Benchmark — Pamuk, Karaer et al., arXiv ·
- TurkishMMLU-Pro: Graduate-Level Turkish Language Understanding — Vidoport Research Lab, arXiv ·
- GPT-5.5 System Card — OpenAI, OpenAI ·
- Claude Opus 4.7 Model Card — Anthropic, Anthropic ·
- Gemini 3.1 Pro Technical Report — Google DeepMind, Google ·
- Sentezbilisim Türkçe LLM Leaderboard — Sentezbilisim, Sentezbilisim ·
- Nilvera AI 2026 Türkiye LLM Kullanım Raporu — Nilvera AI, Nilvera ·
- Vidoport TR-CodeEval Benchmark — Vidoport Research Lab, Vidoport ·
- GZT Teknoloji - ChatGPT, Claude, Gemini Türkçe Karşılaştırma — GZT Teknoloji, GZT ·
- Cumhurbaşkanlığı Dijital Dönüşüm Ofisi - Türk YZ Strateji — T.C. CBDDO, T.C. Cumhurbaşkanlığı ·
- KanarYA: Turkish Open LLM — Turkish-NLP, HuggingFace ·
- TURNA: A Turkish-Centric LLM — Uludogan et al., arXiv ·
- Trendyol-LLM-7B Model Card — Trendyol Tech, HuggingFace ·
- Turkcell-LLM-7B — Turkcell, HuggingFace ·
- FLORES-200 Translation Benchmark — Meta AI, Meta ·
- XL-Sum: Multilingual Abstractive Summarization — Hasan et al., ACL ·
- TQuAD: Turkish Question Answering Dataset — TQuAD Team, GitHub ·
- KVKK - 6698 Sayılı Kanun — T.C. KVKK, Türkiye Cumhuriyeti ·
- BDDK - Bilgi Sistemleri Yönetmeliği — BDDK, BDDK ·
- Tokenization Efficiency in Multilingual LLMs — Petrov et al., arXiv ·
- LMSYS Chatbot Arena Leaderboard — LMSYS, LMSYS ·
- Artificial Analysis LLM Benchmark — Artificial Analysis, Artificial Analysis ·
- Vellum LLM Leaderboard — Vellum, Vellum ·
- Anthropic Tokenizer Documentation — Anthropic, Anthropic ·
- OpenAI Tokenizer (tiktoken) — OpenAI, OpenAI ·
- Gemini Tokenizer Documentation — Google, Google ·
- WikiAnn Turkish NER Dataset — Pan et al., ACL ·
- Mistral Large 3 Technical Report — Mistral AI, Mistral ·
- DeepSeek V3.2 Technical Report — DeepSeek AI, DeepSeek ·
- Llama 4 Maverick Model Card — Meta AI, Meta ·
- XNLI Multilingual NLI Benchmark — Conneau et al., EMNLP ·
- Hub Strategy: LLM Router Patterns for Production — Şükrü Yusuf KAYA, sukruyusufkaya.com ·
- RAG Production Guide — Şükrü Yusuf KAYA, sukruyusufkaya.com ·
- Vidoport TR LLM Maturity Index 2026 — Vidoport, Vidoport ·
Bu rehber yaşayan bir belgedir; LLM versiyonları + Türkçe ağırlıkları + benchmark sonuçları çeyreklik olarak güncellenir.
Danismanlik Baglantilari
Bu yazıya en yakın consulting sayfaları
Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.
E-Ticaret icin Arama, Oneri ve Destek Asistanlari
Urun kesfi, destek operasyonu ve icerik sureclerini yapay zeka ile guclendirerek gelir ve memnuniyet artisi saglayan sistemler.
Kurumsal RAG Sistemleri Gelistirme
Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.
AI Agent ve Workflow Otomasyonu
Tek adimli chatbot'larin otesine gecen; arac, kural ve insan onayi ile ilerleyen AI destekli is akislarina gecis.