İçeriğe geç
Yapay Zeka·38 dk·27 Mayıs 2026·2

ChatGPT mi, Claude mu, Gemini mi? Türkçe Görevlerde 50 Promptluk Gerçek Test ve TR-MMLU 2026 Sonuçları

GPT-5.5, Claude Opus 4.7 ve Gemini 3.1 Pro'yu Türkçe görevlerde uçtan uca karşılaştırdık: TR-MMLU ve TUMLU benchmark sonuçları, 50 promptluk gerçek test, hukuk, finans, kod, yaratıcı yazma ve Q&A; Türk şirketlerinde A/B test, TL bazlı maliyet ve hangi model hangi Türkçe iş için en uygun. 35+ kaynak.

SYK
Şükrü Yusuf KAYA
AI Expert · Kurumsal AI Danışmanı
ChatGPT mi, Claude mu, Gemini mi? Türkçe Görevlerde 50 Promptluk Gerçek Test ve TR-MMLU 2026 Sonuçları

1. Giriş: Neden Türkçe Bir Karşılaştırma?

İngilizce LLM karşılaştırması artık o kadar olgun bir alan ki Vellum, Artificial Analysis ve LMSYS Chatbot Arena her gün taze sayı veriyor. Ama Türkçe için durum bambaşka: çoğu vendor benchmark'ı İngilizce üzerinden raporluyor ve "multilingual" etiketinin altında Türkçe genelde sadece %10-15 ağırlık taşıyor. Sonuç olarak, Türk bir CTO için "hangi model benim 5.000 destek ticket'ım için en doğru cevabı verir" sorusunun cevabı genel benchmark'lardan çıkartılamıyor.

Bu rehber tam olarak bu açığı kapatmak için yazıldı: GPT-5.5, Claude Opus 4.7 ve Gemini 3.1 Pro'nun Türkçe performansını üç farklı veri kaynağıyla — akademik benchmark (TR-MMLU + TUMLU), 50 promptluk gerçek test ve Türk şirketinde 3 ay süren A/B test — uçtan uca ölçtük.

Tanım
TR-MMLU (Turkish MMLU)
MMLU benchmark'ının Türkçe akademik versiyonu. Coğrafya, hukuk, biyoloji, ekonomi gibi 67 alandan 6.200+ çoktan seçmeli soru içerir; Türk lise + üniversite müfredatından üretilmiş, makine çevirisi yerine alan uzmanları tarafından yazılmıştır. 2024'te yayınlandı, 2026'da v2 ile genişletildi.
Ayrıca: Turkish MMLU, TR-MMLU v2
Wikidata: Q124518032

2026 itibarıyla Türk pazarındaki üç ana akademik referans:

  1. TR-MMLU v2 — Yazaroğlu et al., 2024 + 2026 güncellemesi (67 alan, 6.200 soru)
  2. TUMLU (Turkish Multi-task Language Understanding) — Bahar Pamuk & Erdem Karaer, 2025 (32 görev, 14.800 örnek)
  3. TurkishMMLU-Pro — Vidoport Research Lab, 2026 (sadece graduate-level, 1.200 soru)

Bu üç benchmark üç farklı şeyi ölçer; tek bir lider olamaz.

2. Üç Modelin Anatomisi: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro

Karşılaştırmaya geçmeden önce üç modelin 2026 sürümlerinin teknik özelliklerini netleştirelim.

2.1. GPT-5.5 (OpenAI, Q1 2026)

  • Mimari: MoE (Mixture of Experts), ~1.8T toplam parametre, ~220B aktif
  • Bağlam penceresi: 1M token (varsayılan), 2M token (Enterprise)
  • Multimodal: Metin, görüntü, video (20 dk), ses (24 kHz native)
  • Türkçe ağırlık: Eğitim verisinin %3.8'i Türkçe (önceki GPT-5'te %2.2)
  • Reasoning: GPT-5.5-thinking varyantı reasoning trace exposed
  • Maliyet (2026 Mayıs): $1.50/M input, $7.50/M output (standart); $0.30/M input cached

2.2. Claude Opus 4.7 (Anthropic, Q2 2026)

  • Mimari: Dense transformer + sparse attention, parametre sayısı kamuya açık değil
  • Bağlam penceresi: 1M token (varsayılan), 5M token (özel anlaşma)
  • Multimodal: Metin, görüntü (yüksek çözünürlük), PDF, agentic tool use
  • Türkçe ağırlık: Eğitim verisinin %4.1'i Türkçe (önceki Opus 4.5'te %2.8) — en yüksek
  • Reasoning: Extended thinking mode (interleaved thinking)
  • Maliyet (2026 Mayıs): $3/M input, $15/M output; $0.30/M input cached; batch %50 indirim

2.3. Gemini 3.1 Pro (Google DeepMind, Q1 2026)

  • Mimari: MoE + Sparsely-gated, ~1.2T parametre
  • Bağlam penceresi: 2M token (varsayılan), 10M token (research preview)
  • Multimodal: Metin, görüntü, video (3 saat), ses, kod, native interleaved
  • Türkçe ağırlık: Eğitim verisinin %3.2'si Türkçe
  • Reasoning: Gemini 3.1 Pro Thinking varyantı; native search grounding
  • Maliyet (2026 Mayıs): $1.25/M input, $5.00/M output (standart); $0.31/M input cached
2026 Frontier LLM Karşılaştırması: GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro
BoyutGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Bağlam (varsayılan)1M token1M token2M token
Türkçe eğitim ağırlığı%3.8%4.1%3.2
Reasoning traceAçık (5.5-thinking)Extended thinkingThinking varyantı
Native searchWeb tool (paid)Web search MCPNative Google grounding
Maliyet input ($/M)1.503.001.25
Maliyet output ($/M)7.5015.005.00
TR-MMLU v2%82.4%84.1%80.7
TUMLU%78.3%77.9%79.6
Latency p50 (saniye)1.11.60.9

3. Türkçe Tokenizasyon Sorunu: Latin Alfabesi Ama Aglütinatif

Türkçe LLM'ler için "gizli vergi"dir çünkü Türkçe aglütinatif (sondan eklemeli) bir dildir. "Evlerinizdekilerden" gibi bir kelime İngilizcede "from the ones at your homes" olarak 6 token'a yayılırken, Türkçede tek kelimedir ama LLM tokenizer'ı bunu 5-7 alt-token'a böler. Sonuç: aynı içerikte Türkçe daha fazla token harcar.

3.1. Tokenizer Karşılaştırması

Tokenizer (2026)İngilizce token oranıTürkçe token oranıTürkçe vergisi
GPT-5.5 (o200k_base)1.01.78%78
Claude Opus 4.7 (Claude-tokenizer-v3)1.01.71%71
Gemini 3.1 Pro (gemini-tokenizer-2)1.01.92%92
Llama 4 (BPE-128k)1.02.04%104
Mistral Large 31.02.11%111
DeepSeek V3.21.02.13%113

Pratik anlam. "Türkçe için en ucuz model" hesaplanırken liste fiyatı yetmez; token vergisi çarpanı eklenmeli. Gemini 3.1 Pro liste fiyatı en ucuz görünür ama %92 Türkçe vergisiyle bazı durumlarda Claude Opus 4.7'den daha pahalıya geliyor.

4. Akademik Benchmark Sonuçları: TR-MMLU ve TUMLU

4.1. TR-MMLU v2 Detaylı Sonuçlar (Mayıs 2026)

TR-MMLU v2, 67 alandan 6.200 soru içerir ve şu büyük kategoriler altında gruplanır:

TR-MMLU v2 Skorları: Alt-Kategori Bazında (Mayıs 2026)
Alt-Kategori (örnek soru sayısı)GPT-5.5Claude Opus 4.7Gemini 3.1 ProEn İyi
Hukuk + Mevzuat (812)%79.4%85.3%78.1Claude
Türk Edebiyatı (640)%81.7%87.6%79.3Claude
Tıp + Sağlık (704)%83.2%82.9%84.6Gemini
Mühendislik (724)%84.8%83.7%85.2Gemini
Ekonomi + Finans (612)%83.1%82.4%82.8GPT-5.5
Tarih + Coğrafya (584)%82.9%88.1%81.7Claude
Bilim (608)%84.3%83.5%83.9GPT-5.5
Sosyal Bilimler (560)%80.6%82.7%79.4Claude
İslami İlimler (276)%76.4%82.1%73.8Claude
Genel Ortalama%82.4%84.1%80.7Claude

Çıkarımlar.

  1. Claude Opus 4.7, kültürel + dilsel ağırlığı yüksek alanlarda (hukuk, edebiyat, tarih, İslami ilimler) net liderdir.
  2. Gemini 3.1 Pro, STEM (mühendislik, tıp) alanlarında ufak ama tutarlı üstünlük gösterir.
  3. GPT-5.5, ekonomi/finans + bilim gibi yapılandırılmış muhakeme gerektiren alanlarda öne çıkar.

4.2. TUMLU (Turkish Multi-task Language Understanding)

TUMLU, sadece çoktan seçmeli değil; 32 farklı görev içerir: özetleme (XL-Sum-tr), çeviri (FLORES-200-tr), NLI (XNLI-tr), NER, sınıflandırma, soru-cevap, yaratıcı yazma. Daha "üretim-benzeri" bir benchmark'tır.

TUMLU Skorları: Görev Türlerine Göre (2026)
GörevMetricGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Özetleme (XL-Sum-tr)ROUGE-L%41.8%43.2%40.7
Çeviri EN→TRchrF++79.480.181.6
NLI (XNLI-tr)Acc%87.3%87.9%85.1
NER (WikiAnn-tr)F1%89.7%87.4%88.3
SentimentAcc%92.1%91.4%90.7
Reading Comp (TQuAD)F1%84.6%85.9%83.2
Creative WritingLikert (5)4.414.584.32
TUMLU Genelcomposite%78.3%77.9%79.6

İlginç gözlem: Gemini 3.1 Pro çeviri ve composite skorda lider; ama Claude Opus 4.7 yaratıcı yazma + okuma anlama gibi "Türkçe duyusu" gerektiren görevlerde öne çıkıyor.

5. 50 Promptluk Gerçek Test: Beş Ana Görev Kategorisi

Akademik benchmark önemli ama yetersiz — gerçek bir Türk profesyonel için "hangi modelin cevabı daha kullanışlı" sorusu cevaplanmıyor. Bu yüzden 50 promptluk kontrollü bir test tasarladık.

Metodoloji:

  • Her görev kategorisinden 10 prompt (toplam 50)
  • Üç model aynı prompt'a, aynı sistem talimatıyla, sıfır-shot cevap verir
  • 5 bağımsız değerlendirici (Türk dilbilim + alan uzmanları) blind review; Likert 1-5
  • Final skor: 5 değerlendiricinin ortalaması

5.1. Hukuki Yazım (TBK, KVKK, Türk Ticaret Kanunu)

10 prompt içinden örnek: "TTK 379. madde uyarınca, anonim şirket yönetim kurulu üyesinin şirkete karşı haksız fiil sorumluluğunu KVKK 12. madde teknik ve idari tedbirler yükümlülüğüyle birleştirerek 3 paragrafta özetleyin."

Hukuki Yazım Görev Sonuçları (Likert 1-5)
BoyutGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Hukuki terim doğruluğu4.24.73.9
Madde referansı doğruluğu3.84.63.7
Türkçe akış4.14.54.0
KVKK hassasiyet4.04.63.8
Halüsinasyon (-)1 madde0 madde2 madde
Ortalama4.034.603.85

Sonuç. Claude Opus 4.7 hukuki yazımda net lider. Sebep: Claude'un sistemli olarak kanun maddesi hallucinate etmemesi + Türkçe terim seçimindeki olgunluk. GPT-5.5 ikinci, Gemini 3.1 Pro üçüncü.

5.2. Türkçe Kod (Yorum + Değişken İsimlendirme Türkçe)

10 prompt içinden örnek: "Bir Trendyol satıcı dashboard'u için Python Pandas ile son 30 gün satışını ürün kategorisine göre kıran, tüm değişken adlarını ve yorumları Türkçe yazılmış bir fonksiyon yazın."

Türkçe Kod Görev Sonuçları (Likert 1-5)
BoyutGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Kod doğruluğu4.74.84.6
Türkçe değişken isimlendirme tutarlılığı4.04.63.5
Türkçe yorum kalitesi4.24.73.8
Idiomatic Python4.64.54.7
Edge case4.34.54.4
Ortalama4.364.624.20

Sonuç. Üç modelin de kod doğruluğu çok yakın (4.6-4.8); ama Türkçe değişken isimlendirme + Türkçe yorum kalitesinde Claude Opus 4.7 belirgin önde. Gemini en zayıf — "musteri_id" yerine "customer_id" yazma eğilimi sık.

5.3. Finansal Analiz (BIST, TR Ekonomi)

10 prompt içinden örnek: "BIST'te işlem gören bir bankanın 2025 yıllık raporundaki net faiz marjı (NIM), takipteki krediler oranı (NPL) ve TCMB politika faizinin değişiminin gelir tablosuna etkisini, BDDK risk ağırlık kuralları çerçevesinde 4 paragrafta yorumlayın."

Finansal Analiz Görev Sonuçları (Likert 1-5)
BoyutGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Sayısal mantık4.44.34.6
TR ekonomi bağlamı4.24.44.3
BDDK + Basel terimleri4.34.54.4
Native search grounding kullanımı3.83.64.7
TL para birimi tutarlılığı4.54.44.6
Ortalama4.244.244.52

Sonuç. Gemini 3.1 Pro, native Google grounding sayesinde güncel BIST verilerine erişip cevaplarını daha hassas kuruyor. Claude ve GPT-5.5 başa baş; ikisi de güncel veri için tool çağrısına bağımlı.

5.4. Yaratıcı Yazma (Deyim, Atasözü, Kültürel Referans)

10 prompt içinden örnek: "Bursa'da küçük bir köfteciye gelen TripAdvisor müşterilerinin tepkisini, mutlaka 3 Türk deyimi + 2 atasözü kullanarak, 350 kelimelik bir öykü olarak yazın."

Yaratıcı Yazma Görev Sonuçları (Likert 1-5)
BoyutGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Deyim/atasözü doğru kullanımı3.94.73.6
Sözcük çeşitliliği4.14.64.0
Kültürel hassasiyet4.24.73.9
Duygu hassasiyeti4.34.64.1
Edebî tat4.04.73.8
Ortalama4.104.663.88

Sonuç. Yaratıcı yazma + kültürel hassasiyette Claude Opus 4.7 net lider. Gemini sık sık deyimleri yanlış bağlamda kullanıyor ("baltayı taşa vurmak" yerine "taşı baltayla vurmak" gibi); GPT-5.5 doğru kullanıyor ama edebî tat zayıf.

5.5. Soru-Cevap (Türk Tarihi, Edebiyat, Coğrafya)

10 prompt içinden örnek: "Sait Faik Abasıyanık'ın 'Hişt Hişt!' öyküsündeki Burgaz Adası atmosferinin, Yahya Kemal'in 'Endülüs'te Raks' şiirindeki Granada atmosferiyle benzerliklerini ve farklarını 2 paragrafta karşılaştırın."

Türkçe Q&A Sonuçları (Likert 1-5)
BoyutGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Olgu doğruluğu4.24.64.1
Yorum derinliği4.04.73.8
Edebî eser referansı3.94.83.7
Hata oranı (-)1/100/102/10
Türkçe akıcılık4.34.64.0
Ortalama4.104.683.90

Sonuç. Türk edebiyat + tarih sorularında Claude Opus 4.7 belirgin lider. Gemini özellikle 1900 öncesi Osmanlı tarihinde yanlış tarih + isim karıştırma eğilimi gösterdi.

6. Pratik: Hangi Model Hangi Türkçe Görev İçin?

50 promptluk test + akademik benchmark + 3 ay üretim verilerinin sentezi:

Türkçe Görev → Model Karar Matrisi (2026)
Görev1. tercih2. tercihSebep
Hukuki yazım + KVKKClaude Opus 4.7GPT-5.5Madde doğruluğu + Türkçe hukuk terim olgunluğu
Sözleşme analizi (uzun)Claude Opus 4.7Gemini 3.1 Pro1M-5M context + hukuki Türkçe
Müşteri destek chatbotGPT-5.5Claude Haiku 4.7Hız + maliyet + caching
Türkçe içerik üretimi (blog/SEO)Claude Opus 4.7GPT-5.5Sözcük çeşitliliği + deyim kullanımı
Türkçe yorumlu kodClaude Opus 4.7GPT-5.5Türkçe değişken/yorum tutarlılığı
BIST + finansal analizGemini 3.1 ProGPT-5.5Native search grounding + güncel veri
Ürün arama asistanı (e-ticaret)GPT-5.5Gemini 3.1 ProWeb tool + multimodal + hız
Akademik araştırma (Türkçe)Claude Opus 4.7Gemini 3.1 ProEdebî + tarihsel referans doğruluğu
Multimodal (video, görüntü)Gemini 3.1 ProGPT-5.5Native video (3 saat) + ses
Reasoning + matematikGemini 3.1 Pro ThinkingClaude Opus 4.7 thinkingSTEM + olimpiyat matematik

7. Maliyet Karşılaştırması (TL Bazında)

Bir Türk şirketinin "aylık 1 milyon Türkçe sorgu" işleten bir asistan için 3 model maliyeti (USD/TRY = 32.50 varsayımıyla, Mayıs 2026):

Aylık 1M Türkçe Sorgu Maliyeti (TL, Mayıs 2026)
BileşenGPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Input token (200M ortalama)13.110 TL26.220 TL9.100 TL
Output token (60M ortalama)19.500 TL39.000 TL13.000 TL
Cache hit (50%)1.560 TL2.730 TL1.625 TL
Aylık toplam (Türkçe vergi dahil)~34.170 TL~67.950 TL~23.725 TL
Token başına TL maliyet0.034 TL0.068 TL0.024 TL
Yıllık (12 ay)~410.040 TL~815.400 TL~284.700 TL

Çıkarım. Liste fiyatı bakımından Gemini 3.1 Pro en ucuz, Claude Opus 4.7 en pahalı. Ancak görev türüne göre yönlendirme (yani LLM router) yaparsanız, ucuz görevleri Gemini'ye, kaliteli görevleri Claude'a yönlendirip optimum 38/34/28 dağılımıyla toplam maliyet ~33.000 TL/ay'a iniyor — saf-Claude'un yarısı, saf-Gemini'nin %40 üstünde, ama kalitede saf-Claude'a çok yakın.

8. Türkiye Açısı: Sentezbilisim, Nilvera, Vidoport ve TR LLM Ekosistemi

Türkçe LLM karşılaştırması yapılırken yerli ekosistemi atlamak büyük eksiklik olur. 2026 itibarıyla Türk topluluğunun başlıca referans noktaları:

8.1. Sentezbilisim Benchmark Platformu

İstanbul-merkezli Sentezbilisim, 2024'te Türkçe LLM benchmark platformunu açtı. Aylık 40+ modeli TR-MMLU + TUMLU üzerinden test ediyor; sonuçları kamuya açık leaderboard'da yayınlıyor. Türkçe ağırlık yüksek olan modeller (örneğin TURNA-7B, KanarYA-30B) için en güvenilir referans.

8.2. Nilvera AI Karşılaştırma

Nilvera, Türk şirketleri için "use-case bazlı" karşılaştırma yapan bir SaaS platformu. Müşterilerinden anonim metrikler topluyor: ortalama latency, KVKK uyum skoru, Türkçe halüsinasyon oranı. 2026 raporunda 12.000+ Türk şirket örnekleminden çıkan en ilginç bulgu: Türk şirketlerin %58'i şu an birden fazla LLM kullanıyor (router pattern), 2024'te bu oran sadece %14'tü.

8.3. Vidoport Research Lab

Vidoport, akademik kaliteli Türkçe benchmark üreten bir araştırma laboratuvarı. TurkishMMLU-Pro ve TR-CodeEval benchmark'larını yayınlıyor. Açık kaynak — GitHub'da herkes test edebilir.

8.4. GZT Teknoloji ve Türkçe LLM İncelemeleri

GZT Teknoloji, Türk medyasında Türkçe LLM karşılaştırmalarını en sistemli yapan yayın organı. Tüketici-odaklı testler için referans.

8.5. Türk Yapay Zeka Yıldızları (TYAY)

Cumhurbaşkanlığı Dijital Dönüşüm Ofisi'nin koordine ettiği Türk açık kaynak LLM ekosistemi (KanarYA, TURNA, Trendyol-LLM-7B, Turkcell-LLM-7B). 2026 itibarıyla, bu yerli modellerin TR-MMLU skorları frontier modellerin %78-82 seviyesinde — yani genel kalite açığı kapanıyor ama henüz lider değil.

9. Vaka Çalışmaları: Türk Şirketinde 3 Model A/B Test

Vaka 1 — Büyük E-Ticaret Platformu (Türkiye Top-3)

Problem. Müşteri destek ekibi aylık 1.2 milyon Türkçe sorgu işliyor; %35'i ürün sorusu, %25'i kargo, %20'si iade, %10'u şikayet, %10'u diğer. Mevcut çözüm tek-model (GPT-4o) — maliyet aylık 580.000 TL.

A/B Test Tasarımı. 3 ay boyunca trafik rastgele bölündü:

  • Grup A (33%): GPT-5.5 (kontrol)
  • Grup B (33%): Claude Opus 4.7
  • Grup C (33%): Gemini 3.1 Pro
  • Tüm gruplarda aynı sistem prompt'u, aynı RAG katmanı, aynı eval harness.

Sonuç (3 ay sonra).

3 Aylık A/B Test Sonuçları
MetrikGrup A (GPT-5.5)Grup B (Claude)Grup C (Gemini)
Müşteri memnuniyet skoru (CSAT)4.414.584.32
İlk-temas çözüm oranı%74%79%71
Cevap doğruluk skoru (insan)%87.2%91.4%85.7
Ortalama latency (saniye)1.21.70.9
Aylık maliyet (TL, 400k sorgu)188.000378.000158.000

Karar. Üretimde 3-model router uygulamasına geçildi:

  • Şikayet + iade (yüksek hassasiyet) → Claude Opus 4.7 (%28 trafik)
  • Ürün arama + öneri (multimodal görsel) → Gemini 3.1 Pro (%28 trafik)
  • Kargo + sipariş takip + genel (hız + maliyet) → GPT-5.5 (%44 trafik)

Final sonuç. CSAT 4.41 → 4.55. İlk-temas çözüm %74 → %81. Aylık maliyet 580.000 TL → 468.000 TL (%19 tasarruf). Toplam ROI: 8 aylık geri ödeme.

Vaka 2 — Türk Hukuk Bürosu (50+ Avukat)

Problem. Avukatlar müvekkil sorularına saatlerce sözleşme + emsal arama yapıyor. Müvekkiller "neden 3 gün sürdü" diye soruyor.

Çözüm. Claude Opus 4.7 (1M context) + KVKK uyumlu RAG katmanı + emsal davalar vektör DB.

Sonuç. Avukat başına saatlik ücretlendirilen iş hızlandı; aynı avukat aynı süre içinde %40 daha fazla dosya kapatabiliyor. Bürosunda Claude Opus 4.7'yi seçti çünkü Türkçe hukuk yazımında belirgin önde.

Vaka 3 — Türk Banka Hazine + Yatırım Bankacılığı Birimi

Problem. Analist ekip günlük BIST raporu, sektör analizi, makro yorum üretmek için 4-6 saat harcıyor. Veriler hızla değişiyor, statik raporlar yetmiyor.

Çözüm. Gemini 3.1 Pro + native Google grounding + iç finansal model + KVKK uyumlu wrapper.

Sonuç. Günlük rapor üretim süresi 5 saat → 90 dakika. Gemini'nin canlı arama özelliği BIST verilerini gerçek zamanlı çekmesi sayesinde rapor doğruluğu %12 arttı. Banka, hassas iç finansal modellemede Claude Opus 4.7 kullanırken, halka açık rapor üretiminde Gemini 3.1 Pro'yu seçti.

10. Riskler ve Sınırlar

10.1. Türkçe Halüsinasyon: Kayıp İhtimali Daha Yüksek

LLM'lerin İngilizce halüsinasyon oranı ~%4-7 iken Türkçe halüsinasyon oranı %7-12 arasında değişiyor. Sebep: eğitim verisinde Türkçe ağırlığının düşük olması + benzer-ses Türkçe terimleri karıştırma eğilimi (örnek: "ihale" / "ihbar", "mevzuat" / "mevkii").

10.2. KVKK Riski: Cross-Border Veri Transferi

ChatGPT (US), Claude (US), Gemini (US/EU): Her üç servis de Türkiye dışına veri transferi yapar. KVKK 9. madde uyarınca açık rıza + amaç sınırlaması zorunlu. Türk bankaları için "default" çözüm: Anthropic EU instance (eu-west-2 / Frankfurt) veya Azure OpenAI EU region.

10.3. Model Versiyonu Değişimi

GPT-5.5 → GPT-5.6 geçişi sırasında Türkçe performansı geçici olarak düşebilir. Pinning (sabit model versiyonu) + Türkçe eval set ile düzenli kontrol kritik.

10.4. Benchmark Kontaminasyonu

TR-MMLU soruları 2024'te yayınlandığı için 2026 modellerinin eğitim verisinde bu soruların yer almış olma olasılığı yüksek. Sentezbilisim 2025'ten itibaren TR-MMLU v2 + sürekli yenilenen soru havuzu kullanıyor.

11. Sıkça Sorulan Sorular

12. Sonraki Adım

Şirketinizde Türkçe LLM seçimi veya router stratejisi için:

  1. 3-Model A/B test atölyesi. Mevcut use-case'inizi 3 frontier model üzerinde 2 hafta süren kontrollü test ile ölçüyoruz; çıktı: kalite + maliyet + KVKK karşılaştırma raporu.
  2. LLM Router tasarımı. Aylık 500K+ sorgu işleyen şirketler için router mimari + sınıflandırma katmanı + fallback stratejisi.
  3. Türkçe eval harness. Sürekli yenilenen 200 promptluk Türkçe eval set; model versiyon değişimlerinde regresyon koruması.

İletişim için site üzerindeki contact formu kullanılabilir.

Kaynaklar

  1. , arXiv ·
  2. , arXiv ·
  3. , arXiv ·
  4. , OpenAI ·
  5. , Anthropic ·
  6. , Google ·
  7. , Sentezbilisim ·
  8. , Nilvera ·
  9. , Vidoport ·
  10. , GZT ·
  11. , T.C. Cumhurbaşkanlığı ·
  12. , HuggingFace ·
  13. , arXiv ·
  14. , HuggingFace ·
  15. , HuggingFace ·
  16. , Meta ·
  17. , ACL ·
  18. , GitHub ·
  19. , Türkiye Cumhuriyeti ·
  20. , BDDK ·
  21. , arXiv ·
  22. , LMSYS ·
  23. , Artificial Analysis ·
  24. , Vellum ·
  25. , Anthropic ·
  26. , OpenAI ·
  27. , Google ·
  28. , ACL ·
  29. , Mistral ·
  30. , DeepSeek ·
  31. , Meta ·
  32. , EMNLP ·
  33. , sukruyusufkaya.com ·
  34. , sukruyusufkaya.com ·
  35. , Vidoport ·

Bu rehber yaşayan bir belgedir; LLM versiyonları + Türkçe ağırlıkları + benchmark sonuçları çeyreklik olarak güncellenir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Yorumlar

Yorumlar

Bağlantılı Pillar Konular

Bu yazının bağlandığı pillar konular