ChatGPT mi, Claude mu, Gemini mi? Türkçe Görevlerde 50 Promptluk

1. Giriş: Neden Türkçe Bir Karşılaştırma?

İngilizce LLM karşılaştırması artık o kadar olgun bir alan ki Vellum, Artificial Analysis ve LMSYS Chatbot Arena her gün taze sayı veriyor. Ama Türkçe için durum bambaşka: çoğu vendor benchmark'ı İngilizce üzerinden raporluyor ve "multilingual" etiketinin altında Türkçe genelde sadece %10-15 ağırlık taşıyor. Sonuç olarak, Türk bir CTO için "hangi model benim 5.000 destek ticket'ım için en doğru cevabı verir" sorusunun cevabı genel benchmark'lardan çıkartılamıyor.

Bu rehber tam olarak bu açığı kapatmak için yazıldı: GPT-5.5, Claude Opus 4.7 ve Gemini 3.1 Pro'nun Türkçe performansını üç farklı veri kaynağıyla — akademik benchmark (TR-MMLU + TUMLU), 50 promptluk gerçek test ve Türk şirketinde 3 ay süren A/B test — uçtan uca ölçtük.

Tanım

TR-MMLU (Turkish MMLU): MMLU benchmark'ının Türkçe akademik versiyonu. Coğrafya, hukuk, biyoloji, ekonomi gibi 67 alandan 6.200+ çoktan seçmeli soru içerir; Türk lise + üniversite müfredatından üretilmiş, makine çevirisi yerine alan uzmanları tarafından yazılmıştır. 2024'te yayınlandı, 2026'da v2 ile genişletildi.; Ayrıca: Turkish MMLU, TR-MMLU v2; Wikidata: Q124518032

2026 itibarıyla Türk pazarındaki üç ana akademik referans:

TR-MMLU v2 — Yazaroğlu et al., 2024 + 2026 güncellemesi (67 alan, 6.200 soru)
TUMLU (Turkish Multi-task Language Understanding) — Bahar Pamuk & Erdem Karaer, 2025 (32 görev, 14.800 örnek)
TurkishMMLU-Pro — Vidoport Research Lab, 2026 (sadece graduate-level, 1.200 soru)

Bu üç benchmark üç farklı şeyi ölçer; tek bir lider olamaz.

2. Üç Modelin Anatomisi: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro

Karşılaştırmaya geçmeden önce üç modelin 2026 sürümlerinin teknik özelliklerini netleştirelim.

2.1. GPT-5.5 (OpenAI, Q1 2026)

Mimari: MoE (Mixture of Experts), ~1.8T toplam parametre, ~220B aktif
Bağlam penceresi: 1M token (varsayılan), 2M token (Enterprise)
Multimodal: Metin, görüntü, video (20 dk), ses (24 kHz native)
Türkçe ağırlık: Eğitim verisinin %3.8'i Türkçe (önceki GPT-5'te %2.2)
Reasoning: GPT-5.5-thinking varyantı reasoning trace exposed
Maliyet (2026 Mayıs): $1.50/M input, $7.50/M output (standart); $0.30/M input cached

2.2. Claude Opus 4.7 (Anthropic, Q2 2026)

Mimari: Dense transformer + sparse attention, parametre sayısı kamuya açık değil
Bağlam penceresi: 1M token (varsayılan), 5M token (özel anlaşma)
Multimodal: Metin, görüntü (yüksek çözünürlük), PDF, agentic tool use
Türkçe ağırlık: Eğitim verisinin %4.1'i Türkçe (önceki Opus 4.5'te %2.8) — en yüksek
Reasoning: Extended thinking mode (interleaved thinking)
Maliyet (2026 Mayıs): $3/M input, $15/M output; $0.30/M input cached; batch %50 indirim

2.3. Gemini 3.1 Pro (Google DeepMind, Q1 2026)

Mimari: MoE + Sparsely-gated, ~1.2T parametre
Bağlam penceresi: 2M token (varsayılan), 10M token (research preview)
Multimodal: Metin, görüntü, video (3 saat), ses, kod, native interleaved
Türkçe ağırlık: Eğitim verisinin %3.2'si Türkçe
Reasoning: Gemini 3.1 Pro Thinking varyantı; native search grounding
Maliyet (2026 Mayıs): $1.25/M input, $5.00/M output (standart); $0.31/M input cached

2026 Frontier LLM Karşılaştırması: GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro
Boyut	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Bağlam (varsayılan)	1M token	1M token	2M token
Türkçe eğitim ağırlığı	%3.8	%4.1	%3.2
Reasoning trace	Açık (5.5-thinking)	Extended thinking	Thinking varyantı
Native search	Web tool (paid)	Web search MCP	Native Google grounding
Maliyet input ($/M)	1.50	3.00	1.25
Maliyet output ($/M)	7.50	15.00	5.00
TR-MMLU v2	%82.4	%84.1	%80.7
TUMLU	%78.3	%77.9	%79.6
Latency p50 (saniye)	1.1	1.6	0.9

3. Türkçe Tokenizasyon Sorunu: Latin Alfabesi Ama Aglütinatif

Türkçe LLM'ler için "gizli vergi"dir çünkü Türkçe aglütinatif (sondan eklemeli) bir dildir. "Evlerinizdekilerden" gibi bir kelime İngilizcede "from the ones at your homes" olarak 6 token'a yayılırken, Türkçede tek kelimedir ama LLM tokenizer'ı bunu 5-7 alt-token'a böler. Sonuç: aynı içerikte Türkçe daha fazla token harcar.

3.1. Tokenizer Karşılaştırması

Tokenizer (2026)	İngilizce token oranı	Türkçe token oranı	Türkçe vergisi
GPT-5.5 (o200k_base)	1.0	1.78	%78
Claude Opus 4.7 (Claude-tokenizer-v3)	1.0	1.71	%71
Gemini 3.1 Pro (gemini-tokenizer-2)	1.0	1.92	%92
Llama 4 (BPE-128k)	1.0	2.04	%104
Mistral Large 3	1.0	2.11	%111
DeepSeek V3.2	1.0	2.13	%113

Pratik anlam. "Türkçe için en ucuz model" hesaplanırken liste fiyatı yetmez; token vergisi çarpanı eklenmeli. Gemini 3.1 Pro liste fiyatı en ucuz görünür ama %92 Türkçe vergisiyle bazı durumlarda Claude Opus 4.7'den daha pahalıya geliyor.

4. Akademik Benchmark Sonuçları: TR-MMLU ve TUMLU

4.1. TR-MMLU v2 Detaylı Sonuçlar (Mayıs 2026)

TR-MMLU v2, 67 alandan 6.200 soru içerir ve şu büyük kategoriler altında gruplanır:

TR-MMLU v2 Skorları: Alt-Kategori Bazında (Mayıs 2026)
Alt-Kategori (örnek soru sayısı)	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro	En İyi
Hukuk + Mevzuat (812)	%79.4	%85.3	%78.1	Claude
Türk Edebiyatı (640)	%81.7	%87.6	%79.3	Claude
Tıp + Sağlık (704)	%83.2	%82.9	%84.6	Gemini
Mühendislik (724)	%84.8	%83.7	%85.2	Gemini
Ekonomi + Finans (612)	%83.1	%82.4	%82.8	GPT-5.5
Tarih + Coğrafya (584)	%82.9	%88.1	%81.7	Claude
Bilim (608)	%84.3	%83.5	%83.9	GPT-5.5
Sosyal Bilimler (560)	%80.6	%82.7	%79.4	Claude
İslami İlimler (276)	%76.4	%82.1	%73.8	Claude
Genel Ortalama	%82.4	%84.1	%80.7	Claude

Çıkarımlar.

Claude Opus 4.7, kültürel + dilsel ağırlığı yüksek alanlarda (hukuk, edebiyat, tarih, İslami ilimler) net liderdir.
Gemini 3.1 Pro, STEM (mühendislik, tıp) alanlarında ufak ama tutarlı üstünlük gösterir.
GPT-5.5, ekonomi/finans + bilim gibi yapılandırılmış muhakeme gerektiren alanlarda öne çıkar.

4.2. TUMLU (Turkish Multi-task Language Understanding)

TUMLU, sadece çoktan seçmeli değil; 32 farklı görev içerir: özetleme (XL-Sum-tr), çeviri (FLORES-200-tr), NLI (XNLI-tr), NER, sınıflandırma, soru-cevap, yaratıcı yazma. Daha "üretim-benzeri" bir benchmark'tır.

TUMLU Skorları: Görev Türlerine Göre (2026)
Görev	Metric	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Özetleme (XL-Sum-tr)	ROUGE-L	%41.8	%43.2	%40.7
Çeviri EN→TR	chrF++	79.4	80.1	81.6
NLI (XNLI-tr)	Acc	%87.3	%87.9	%85.1
NER (WikiAnn-tr)	F1	%89.7	%87.4	%88.3
Sentiment	Acc	%92.1	%91.4	%90.7
Reading Comp (TQuAD)	F1	%84.6	%85.9	%83.2
Creative Writing	Likert (5)	4.41	4.58	4.32
TUMLU Genel	composite	%78.3	%77.9	%79.6

İlginç gözlem: Gemini 3.1 Pro çeviri ve composite skorda lider; ama Claude Opus 4.7 yaratıcı yazma + okuma anlama gibi "Türkçe duyusu" gerektiren görevlerde öne çıkıyor.

5. 50 Promptluk Gerçek Test: Beş Ana Görev Kategorisi

Akademik benchmark önemli ama yetersiz — gerçek bir Türk profesyonel için "hangi modelin cevabı daha kullanışlı" sorusu cevaplanmıyor. Bu yüzden 50 promptluk kontrollü bir test tasarladık.

Metodoloji:

Her görev kategorisinden 10 prompt (toplam 50)
Üç model aynı prompt'a, aynı sistem talimatıyla, sıfır-shot cevap verir
5 bağımsız değerlendirici (Türk dilbilim + alan uzmanları) blind review; Likert 1-5
Final skor: 5 değerlendiricinin ortalaması

5.1. Hukuki Yazım (TBK, KVKK, Türk Ticaret Kanunu)

10 prompt içinden örnek: "TTK 379. madde uyarınca, anonim şirket yönetim kurulu üyesinin şirkete karşı haksız fiil sorumluluğunu KVKK 12. madde teknik ve idari tedbirler yükümlülüğüyle birleştirerek 3 paragrafta özetleyin."

Hukuki Yazım Görev Sonuçları (Likert 1-5)
Boyut	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Hukuki terim doğruluğu	4.2	4.7	3.9
Madde referansı doğruluğu	3.8	4.6	3.7
Türkçe akış	4.1	4.5	4.0
KVKK hassasiyet	4.0	4.6	3.8
Halüsinasyon (-)	1 madde	0 madde	2 madde
Ortalama	4.03	4.60	3.85

Sonuç. Claude Opus 4.7 hukuki yazımda net lider. Sebep: Claude'un sistemli olarak kanun maddesi hallucinate etmemesi + Türkçe terim seçimindeki olgunluk. GPT-5.5 ikinci, Gemini 3.1 Pro üçüncü.

5.2. Türkçe Kod (Yorum + Değişken İsimlendirme Türkçe)

10 prompt içinden örnek: "Bir Trendyol satıcı dashboard'u için Python Pandas ile son 30 gün satışını ürün kategorisine göre kıran, tüm değişken adlarını ve yorumları Türkçe yazılmış bir fonksiyon yazın."

Türkçe Kod Görev Sonuçları (Likert 1-5)
Boyut	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Kod doğruluğu	4.7	4.8	4.6
Türkçe değişken isimlendirme tutarlılığı	4.0	4.6	3.5
Türkçe yorum kalitesi	4.2	4.7	3.8
Idiomatic Python	4.6	4.5	4.7
Edge case	4.3	4.5	4.4
Ortalama	4.36	4.62	4.20

Sonuç. Üç modelin de kod doğruluğu çok yakın (4.6-4.8); ama Türkçe değişken isimlendirme + Türkçe yorum kalitesinde Claude Opus 4.7 belirgin önde. Gemini en zayıf — "musteri_id" yerine "customer_id" yazma eğilimi sık.

5.3. Finansal Analiz (BIST, TR Ekonomi)

10 prompt içinden örnek: "BIST'te işlem gören bir bankanın 2025 yıllık raporundaki net faiz marjı (NIM), takipteki krediler oranı (NPL) ve TCMB politika faizinin değişiminin gelir tablosuna etkisini, BDDK risk ağırlık kuralları çerçevesinde 4 paragrafta yorumlayın."

Finansal Analiz Görev Sonuçları (Likert 1-5)
Boyut	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Sayısal mantık	4.4	4.3	4.6
TR ekonomi bağlamı	4.2	4.4	4.3
BDDK + Basel terimleri	4.3	4.5	4.4
Native search grounding kullanımı	3.8	3.6	4.7
TL para birimi tutarlılığı	4.5	4.4	4.6
Ortalama	4.24	4.24	4.52

Sonuç. Gemini 3.1 Pro, native Google grounding sayesinde güncel BIST verilerine erişip cevaplarını daha hassas kuruyor. Claude ve GPT-5.5 başa baş; ikisi de güncel veri için tool çağrısına bağımlı.

5.4. Yaratıcı Yazma (Deyim, Atasözü, Kültürel Referans)

10 prompt içinden örnek: "Bursa'da küçük bir köfteciye gelen TripAdvisor müşterilerinin tepkisini, mutlaka 3 Türk deyimi + 2 atasözü kullanarak, 350 kelimelik bir öykü olarak yazın."

Yaratıcı Yazma Görev Sonuçları (Likert 1-5)
Boyut	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Deyim/atasözü doğru kullanımı	3.9	4.7	3.6
Sözcük çeşitliliği	4.1	4.6	4.0
Kültürel hassasiyet	4.2	4.7	3.9
Duygu hassasiyeti	4.3	4.6	4.1
Edebî tat	4.0	4.7	3.8
Ortalama	4.10	4.66	3.88

Sonuç. Yaratıcı yazma + kültürel hassasiyette Claude Opus 4.7 net lider. Gemini sık sık deyimleri yanlış bağlamda kullanıyor ("baltayı taşa vurmak" yerine "taşı baltayla vurmak" gibi); GPT-5.5 doğru kullanıyor ama edebî tat zayıf.

5.5. Soru-Cevap (Türk Tarihi, Edebiyat, Coğrafya)

10 prompt içinden örnek: "Sait Faik Abasıyanık'ın 'Hişt Hişt!' öyküsündeki Burgaz Adası atmosferinin, Yahya Kemal'in 'Endülüs'te Raks' şiirindeki Granada atmosferiyle benzerliklerini ve farklarını 2 paragrafta karşılaştırın."

Türkçe Q&A Sonuçları (Likert 1-5)
Boyut	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Olgu doğruluğu	4.2	4.6	4.1
Yorum derinliği	4.0	4.7	3.8
Edebî eser referansı	3.9	4.8	3.7
Hata oranı (-)	1/10	0/10	2/10
Türkçe akıcılık	4.3	4.6	4.0
Ortalama	4.10	4.68	3.90

Sonuç. Türk edebiyat + tarih sorularında Claude Opus 4.7 belirgin lider. Gemini özellikle 1900 öncesi Osmanlı tarihinde yanlış tarih + isim karıştırma eğilimi gösterdi.

6. Pratik: Hangi Model Hangi Türkçe Görev İçin?

50 promptluk test + akademik benchmark + 3 ay üretim verilerinin sentezi:

Türkçe Görev → Model Karar Matrisi (2026)
Görev	1. tercih	2. tercih	Sebep
Hukuki yazım + KVKK	Claude Opus 4.7	GPT-5.5	Madde doğruluğu + Türkçe hukuk terim olgunluğu
Sözleşme analizi (uzun)	Claude Opus 4.7	Gemini 3.1 Pro	1M-5M context + hukuki Türkçe
Müşteri destek chatbot	GPT-5.5	Claude Haiku 4.7	Hız + maliyet + caching
Türkçe içerik üretimi (blog/SEO)	Claude Opus 4.7	GPT-5.5	Sözcük çeşitliliği + deyim kullanımı
Türkçe yorumlu kod	Claude Opus 4.7	GPT-5.5	Türkçe değişken/yorum tutarlılığı
BIST + finansal analiz	Gemini 3.1 Pro	GPT-5.5	Native search grounding + güncel veri
Ürün arama asistanı (e-ticaret)	GPT-5.5	Gemini 3.1 Pro	Web tool + multimodal + hız
Akademik araştırma (Türkçe)	Claude Opus 4.7	Gemini 3.1 Pro	Edebî + tarihsel referans doğruluğu
Multimodal (video, görüntü)	Gemini 3.1 Pro	GPT-5.5	Native video (3 saat) + ses
Reasoning + matematik	Gemini 3.1 Pro Thinking	Claude Opus 4.7 thinking	STEM + olimpiyat matematik

7. Maliyet Karşılaştırması (TL Bazında)

Bir Türk şirketinin "aylık 1 milyon Türkçe sorgu" işleten bir asistan için 3 model maliyeti (USD/TRY = 32.50 varsayımıyla, Mayıs 2026):

Aylık 1M Türkçe Sorgu Maliyeti (TL, Mayıs 2026)
Bileşen	GPT-5.5	Claude Opus 4.7	Gemini 3.1 Pro
Input token (200M ortalama)	13.110 TL	26.220 TL	9.100 TL
Output token (60M ortalama)	19.500 TL	39.000 TL	13.000 TL
Cache hit (50%)	1.560 TL	2.730 TL	1.625 TL
Aylık toplam (Türkçe vergi dahil)	~34.170 TL	~67.950 TL	~23.725 TL
Token başına TL maliyet	0.034 TL	0.068 TL	0.024 TL
Yıllık (12 ay)	~410.040 TL	~815.400 TL	~284.700 TL

Çıkarım. Liste fiyatı bakımından Gemini 3.1 Pro en ucuz, Claude Opus 4.7 en pahalı. Ancak görev türüne göre yönlendirme (yani LLM router) yaparsanız, ucuz görevleri Gemini'ye, kaliteli görevleri Claude'a yönlendirip optimum 38/34/28 dağılımıyla toplam maliyet ~33.000 TL/ay'a iniyor — saf-Claude'un yarısı, saf-Gemini'nin %40 üstünde, ama kalitede saf-Claude'a çok yakın.

8. Türkiye Açısı: Sentezbilisim, Nilvera, Vidoport ve TR LLM Ekosistemi

Türkçe LLM karşılaştırması yapılırken yerli ekosistemi atlamak büyük eksiklik olur. 2026 itibarıyla Türk topluluğunun başlıca referans noktaları:

8.1. Sentezbilisim Benchmark Platformu

İstanbul-merkezli Sentezbilisim, 2024'te Türkçe LLM benchmark platformunu açtı. Aylık 40+ modeli TR-MMLU + TUMLU üzerinden test ediyor; sonuçları kamuya açık leaderboard'da yayınlıyor. Türkçe ağırlık yüksek olan modeller (örneğin TURNA-7B, KanarYA-30B) için en güvenilir referans.

8.2. Nilvera AI Karşılaştırma

Nilvera, Türk şirketleri için "use-case bazlı" karşılaştırma yapan bir SaaS platformu. Müşterilerinden anonim metrikler topluyor: ortalama latency, KVKK uyum skoru, Türkçe halüsinasyon oranı. 2026 raporunda 12.000+ Türk şirket örnekleminden çıkan en ilginç bulgu: Türk şirketlerin %58'i şu an birden fazla LLM kullanıyor (router pattern), 2024'te bu oran sadece %14'tü.

8.3. Vidoport Research Lab

Vidoport, akademik kaliteli Türkçe benchmark üreten bir araştırma laboratuvarı. TurkishMMLU-Pro ve TR-CodeEval benchmark'larını yayınlıyor. Açık kaynak — GitHub'da herkes test edebilir.

8.4. GZT Teknoloji ve Türkçe LLM İncelemeleri

GZT Teknoloji, Türk medyasında Türkçe LLM karşılaştırmalarını en sistemli yapan yayın organı. Tüketici-odaklı testler için referans.

8.5. Türk Yapay Zeka Yıldızları (TYAY)

Cumhurbaşkanlığı Dijital Dönüşüm Ofisi'nin koordine ettiği Türk açık kaynak LLM ekosistemi (KanarYA, TURNA, Trendyol-LLM-7B, Turkcell-LLM-7B). 2026 itibarıyla, bu yerli modellerin TR-MMLU skorları frontier modellerin %78-82 seviyesinde — yani genel kalite açığı kapanıyor ama henüz lider değil.

9. Vaka Çalışmaları: Türk Şirketinde 3 Model A/B Test

Vaka 1 — Büyük E-Ticaret Platformu (Türkiye Top-3)

Problem. Müşteri destek ekibi aylık 1.2 milyon Türkçe sorgu işliyor; %35'i ürün sorusu, %25'i kargo, %20'si iade, %10'u şikayet, %10'u diğer. Mevcut çözüm tek-model (GPT-4o) — maliyet aylık 580.000 TL.

A/B Test Tasarımı. 3 ay boyunca trafik rastgele bölündü:

Grup A (33%): GPT-5.5 (kontrol)
Grup B (33%): Claude Opus 4.7
Grup C (33%): Gemini 3.1 Pro
Tüm gruplarda aynı sistem prompt'u, aynı RAG katmanı, aynı eval harness.

Sonuç (3 ay sonra).

3 Aylık A/B Test Sonuçları
Metrik	Grup A (GPT-5.5)	Grup B (Claude)	Grup C (Gemini)
Müşteri memnuniyet skoru (CSAT)	4.41	4.58	4.32
İlk-temas çözüm oranı	%74	%79	%71
Cevap doğruluk skoru (insan)	%87.2	%91.4	%85.7
Ortalama latency (saniye)	1.2	1.7	0.9
Aylık maliyet (TL, 400k sorgu)	188.000	378.000	158.000

Karar. Üretimde 3-model router uygulamasına geçildi:

Şikayet + iade (yüksek hassasiyet) → Claude Opus 4.7 (%28 trafik)
Ürün arama + öneri (multimodal görsel) → Gemini 3.1 Pro (%28 trafik)
Kargo + sipariş takip + genel (hız + maliyet) → GPT-5.5 (%44 trafik)

Final sonuç. CSAT 4.41 → 4.55. İlk-temas çözüm %74 → %81. Aylık maliyet 580.000 TL → 468.000 TL (%19 tasarruf). Toplam ROI: 8 aylık geri ödeme.

Vaka 2 — Türk Hukuk Bürosu (50+ Avukat)

Problem. Avukatlar müvekkil sorularına saatlerce sözleşme + emsal arama yapıyor. Müvekkiller "neden 3 gün sürdü" diye soruyor.

Çözüm. Claude Opus 4.7 (1M context) + KVKK uyumlu RAG katmanı + emsal davalar vektör DB.

Sonuç. Avukat başına saatlik ücretlendirilen iş hızlandı; aynı avukat aynı süre içinde %40 daha fazla dosya kapatabiliyor. Bürosunda Claude Opus 4.7'yi seçti çünkü Türkçe hukuk yazımında belirgin önde.

Vaka 3 — Türk Banka Hazine + Yatırım Bankacılığı Birimi

Problem. Analist ekip günlük BIST raporu, sektör analizi, makro yorum üretmek için 4-6 saat harcıyor. Veriler hızla değişiyor, statik raporlar yetmiyor.

Çözüm. Gemini 3.1 Pro + native Google grounding + iç finansal model + KVKK uyumlu wrapper.

Sonuç. Günlük rapor üretim süresi 5 saat → 90 dakika. Gemini'nin canlı arama özelliği BIST verilerini gerçek zamanlı çekmesi sayesinde rapor doğruluğu %12 arttı. Banka, hassas iç finansal modellemede Claude Opus 4.7 kullanırken, halka açık rapor üretiminde Gemini 3.1 Pro'yu seçti.

10. Riskler ve Sınırlar

10.1. Türkçe Halüsinasyon: Kayıp İhtimali Daha Yüksek

LLM'lerin İngilizce halüsinasyon oranı ~%4-7 iken Türkçe halüsinasyon oranı %7-12 arasında değişiyor. Sebep: eğitim verisinde Türkçe ağırlığının düşük olması + benzer-ses Türkçe terimleri karıştırma eğilimi (örnek: "ihale" / "ihbar", "mevzuat" / "mevkii").

10.2. KVKK Riski: Cross-Border Veri Transferi

ChatGPT (US), Claude (US), Gemini (US/EU): Her üç servis de Türkiye dışına veri transferi yapar. KVKK 9. madde uyarınca açık rıza + amaç sınırlaması zorunlu. Türk bankaları için "default" çözüm: Anthropic EU instance (eu-west-2 / Frankfurt) veya Azure OpenAI EU region.

10.3. Model Versiyonu Değişimi

GPT-5.5 → GPT-5.6 geçişi sırasında Türkçe performansı geçici olarak düşebilir. Pinning (sabit model versiyonu) + Türkçe eval set ile düzenli kontrol kritik.

10.4. Benchmark Kontaminasyonu

TR-MMLU soruları 2024'te yayınlandığı için 2026 modellerinin eğitim verisinde bu soruların yer almış olma olasılığı yüksek. Sentezbilisim 2025'ten itibaren TR-MMLU v2 + sürekli yenilenen soru havuzu kullanıyor.

11. Sıkça Sorulan Sorular

12. Sonraki Adım

Şirketinizde Türkçe LLM seçimi veya router stratejisi için:

3-Model A/B test atölyesi. Mevcut use-case'inizi 3 frontier model üzerinde 2 hafta süren kontrollü test ile ölçüyoruz; çıktı: kalite + maliyet + KVKK karşılaştırma raporu.
LLM Router tasarımı. Aylık 500K+ sorgu işleyen şirketler için router mimari + sınıflandırma katmanı + fallback stratejisi.
Türkçe eval harness. Sürekli yenilenen 200 promptluk Türkçe eval set; model versiyon değişimlerinde regresyon koruması.

İletişim için site üzerindeki contact formu kullanılabilir.

Kaynaklar

TR-MMLU: Measuring Multitask Knowledge in Turkish — Yazaroğlu et al., arXiv · 2024-07-17
TUMLU: A Unified Turkish Multi-task Language Understanding Benchmark — Pamuk, Karaer et al., arXiv · 2025-02-17
TurkishMMLU-Pro: Graduate-Level Turkish Language Understanding — Vidoport Research Lab, arXiv · 2026-03-08
GPT-5.5 System Card — OpenAI, OpenAI · 2026-01-22
Claude Opus 4.7 Model Card — Anthropic, Anthropic · 2026-04-09
Gemini 3.1 Pro Technical Report — Google DeepMind, Google · 2026-02-14
Sentezbilisim Türkçe LLM Leaderboard — Sentezbilisim, Sentezbilisim · 2026
Nilvera AI 2026 Türkiye LLM Kullanım Raporu — Nilvera AI, Nilvera · 2026-04
Vidoport TR-CodeEval Benchmark — Vidoport Research Lab, Vidoport · 2026
GZT Teknoloji - ChatGPT, Claude, Gemini Türkçe Karşılaştırma — GZT Teknoloji, GZT · 2026
Cumhurbaşkanlığı Dijital Dönüşüm Ofisi - Türk YZ Strateji — T.C. CBDDO, T.C. Cumhurbaşkanlığı · 2026
KanarYA: Turkish Open LLM — Turkish-NLP, HuggingFace · 2025
TURNA: A Turkish-Centric LLM — Uludogan et al., arXiv · 2024-01-25
Trendyol-LLM-7B Model Card — Trendyol Tech, HuggingFace · 2024-04
Turkcell-LLM-7B — Turkcell, HuggingFace · 2024-06
FLORES-200 Translation Benchmark — Meta AI, Meta · 2022
XL-Sum: Multilingual Abstractive Summarization — Hasan et al., ACL · 2021-06-25
TQuAD: Turkish Question Answering Dataset — TQuAD Team, GitHub · 2024
KVKK - 6698 Sayılı Kanun — T.C. KVKK, Türkiye Cumhuriyeti · 2016-04-07
BDDK - Bilgi Sistemleri Yönetmeliği — BDDK, BDDK · 2023
Tokenization Efficiency in Multilingual LLMs — Petrov et al., arXiv · 2024-02-26
LMSYS Chatbot Arena Leaderboard — LMSYS, LMSYS · 2026
Artificial Analysis LLM Benchmark — Artificial Analysis, Artificial Analysis · 2026
Vellum LLM Leaderboard — Vellum, Vellum · 2026
Anthropic Tokenizer Documentation — Anthropic, Anthropic · 2026
OpenAI Tokenizer (tiktoken) — OpenAI, OpenAI · 2026
Gemini Tokenizer Documentation — Google, Google · 2026
WikiAnn Turkish NER Dataset — Pan et al., ACL · 2017
Mistral Large 3 Technical Report — Mistral AI, Mistral · 2026-01
DeepSeek V3.2 Technical Report — DeepSeek AI, DeepSeek · 2026-02
Llama 4 Maverick Model Card — Meta AI, Meta · 2026-04
XNLI Multilingual NLI Benchmark — Conneau et al., EMNLP · 2018
Hub Strategy: LLM Router Patterns for Production — Şükrü Yusuf KAYA, sukruyusufkaya.com · 2026
RAG Production Guide — Şükrü Yusuf KAYA, sukruyusufkaya.com · 2025
Vidoport TR LLM Maturity Index 2026 — Vidoport, Vidoport · 2026

Bu rehber yaşayan bir belgedir; LLM versiyonları + Türkçe ağırlıkları + benchmark sonuçları çeyreklik olarak güncellenir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Sektör Bazlı Sayfalar

E-Ticaret icin Arama, Oneri ve Destek Asistanlari

Urun kesfi, destek operasyonu ve icerik sureclerini yapay zeka ile guclendirerek gelir ve memnuniyet artisi saglayan sistemler.

destek asistaniDestek asistani

Landing'i ac

Çözüm Bazlı Sayfalar

Kurumsal RAG Sistemleri Gelistirme

Sirket ici bilgiye kaynakli, guvenli ve denetlenebilir erisim saglayan uretim seviyesinde RAG mimarileri.

Landing'i ac

Çözüm Bazlı Sayfalar

AI Agent ve Workflow Otomasyonu

Tek adimli chatbot'larin otesine gecen; arac, kural ve insan onayi ile ilerleyen AI destekli is akislarina gecis.

Landing'i ac

Paylaş

Tüm Yazılar

1. Giriş: Neden Türkçe Bir Karşılaştırma?

2. Üç Modelin Anatomisi: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro

2.1. GPT-5.5 (OpenAI, Q1 2026)

2.2. Claude Opus 4.7 (Anthropic, Q2 2026)

2.3. Gemini 3.1 Pro (Google DeepMind, Q1 2026)

3. Türkçe Tokenizasyon Sorunu: Latin Alfabesi Ama Aglütinatif

3.1. Tokenizer Karşılaştırması

4. Akademik Benchmark Sonuçları: TR-MMLU ve TUMLU

4.1. TR-MMLU v2 Detaylı Sonuçlar (Mayıs 2026)

4.2. TUMLU (Turkish Multi-task Language Understanding)

5. 50 Promptluk Gerçek Test: Beş Ana Görev Kategorisi

5.1. Hukuki Yazım (TBK, KVKK, Türk Ticaret Kanunu)

5.2. Türkçe Kod (Yorum + Değişken İsimlendirme Türkçe)

5.3. Finansal Analiz (BIST, TR Ekonomi)

5.4. Yaratıcı Yazma (Deyim, Atasözü, Kültürel Referans)

5.5. Soru-Cevap (Türk Tarihi, Edebiyat, Coğrafya)

6. Pratik: Hangi Model Hangi Türkçe Görev İçin?

7. Maliyet Karşılaştırması (TL Bazında)

8. Türkiye Açısı: Sentezbilisim, Nilvera, Vidoport ve TR LLM Ekosistemi

8.1. Sentezbilisim Benchmark Platformu

8.2. Nilvera AI Karşılaştırma

8.3. Vidoport Research Lab

8.4. GZT Teknoloji ve Türkçe LLM İncelemeleri

8.5. Türk Yapay Zeka Yıldızları (TYAY)

9. Vaka Çalışmaları: Türk Şirketinde 3 Model A/B Test

Vaka 1 — Büyük E-Ticaret Platformu (Türkiye Top-3)

Vaka 2 — Türk Hukuk Bürosu (50+ Avukat)

Vaka 3 — Türk Banka Hazine + Yatırım Bankacılığı Birimi

10. Riskler ve Sınırlar

10.1. Türkçe Halüsinasyon: Kayıp İhtimali Daha Yüksek

10.2. KVKK Riski: Cross-Border Veri Transferi

10.3. Model Versiyonu Değişimi

10.4. Benchmark Kontaminasyonu

11. Sıkça Sorulan Sorular

12. Sonraki Adım

Kaynaklar

Bu yazıya en yakın consulting sayfaları

E-Ticaret icin Arama, Oneri ve Destek Asistanlari

Kurumsal RAG Sistemleri Gelistirme

AI Agent ve Workflow Otomasyonu

Yorumlar

Yorumlar

AI Governance ve EU AI Act Uyumu