İçeriğe geç
Yapay Zeka·25 dk·12 Mayıs 2026·9

Türkçe LLM Karşılaştırması 2026: GPT-5, Claude Opus 4.7, Gemini 3, Llama 4 ve Yerli Modeller — Tam Benchmark

Türkçe için en kapsamlı 2026 LLM karşılaştırması: MMLU-TR, Belebele-TR, TruthfulQA-TR, Türkçe HumanEval, MGSM-TR ve hallucination testleri. GPT-5, Claude Opus 4.7, Gemini 3, Mistral Large 3, Llama 4, DeepSeek V3, Qwen 2.5 ve yerli modeller (Cezeri, BERTurk, Trendyol-LLM) skor tablosu, kullanım senaryosu eşleştirme ve şeffaf metodoloji.

SYK
Şükrü Yusuf KAYA
AI Expert · Kurumsal AI Danışmanı

<tldr data-summary='["2026 itibarıyla Türkçe genel performansta lider sıralama: Claude Opus 4.7 ≈ GPT-5 > Gemini 3 > Mistral Large 3 > DeepSeek V3 > Llama 4 70B > Qwen 2.5 72B.","Yerli modeller (Cezeri, KanarYa, BERTurk, Trendyol-LLM) genel yarıştan geride ama domain-spesifik görevlerde (e-ticaret, Türkçe NLP) rekabetçi.","Kod üretiminde Claude Opus 4.7 açık ara önde; matematik ve akıl yürütmede GPT-5; multimodal görevlerde Gemini 3 lider.","Hallucination oranında en güvenilir: Claude Opus 4.7 ve GPT-5; en yüksek hata: küçük açık modeller (Llama 8B, Mistral 7B).","Maliyet-performans kazananı: GPT-5 mini, Claude Haiku 4.5, Gemini Flash 3 — büyük modellerden 10x ucuz, kalitenin %85-90'ını sunuyor."]' data-one-line="2026 Türkçe LLM yarışında Claude Opus 4.7 ve GPT-5 zirvede; Gemini 3 multimodal ile öne çıkıyor, açık ağırlık modelleri kapanan farkla yakınlaşıyor, yerli modeller henüz general-purpose yarıştan geride.">

1. Niye Türkçe-Özel Bir Benchmark Şart?

İngilizce ağırlıklı global benchmark'lar (orijinal MMLU, HellaSwag, ARC) bir LLM'in Türkçe performansını gerçekçi tahmin etmez. Bunun üç nedeni var:

  1. Tokenizer verimliliği. Türkçe morfolojik olarak zengin; bir cümle İngilizce'ye göre %30-50 daha fazla token üretir. Aynı context'te daha az içerik sığar.
  2. Eğitim verisi dengesi. Bayrak modeller bile eğitim verisinin tipik olarak yalnızca %1-3'ünü Türkçe içerikten alır. Akıcılık emergent olarak gelir, ama her görevde aynı seviyede değildir.
  3. Türkçe-spesifik bilgi. Türk hukuku, idari yapı, coğrafi/tarihi referanslar, kültürel deyimler — global benchmarklar bunu hiç ölçmez.
Tanım
LLM Benchmark
Bir veya birden çok dil modelinin standart bir test seti üzerindeki performansını ölçen ve karşılaştıran yapılandırılmış değerlendirme. Genel akıl yürütme (MMLU), dil anlama (HellaSwag), gerçeklik (TruthfulQA), kod (HumanEval), matematik (GSM8K), ve domain-spesifik testler temel kategorilerdir.
Ayrıca: LLM Evaluation, Model Karşılaştırma

Bu rehberde altı boyutta Türkçe performansı değerlendiriyoruz: genel akıl yürütme, dil akıcılığı, kod, matematik, hukuki Q&A ve hallucination oranı.

2. Test Edilen Modeller

Karşılaştırmada 13 model yer alıyor — 4 kapalı kaynak bayrak modeli, 5 açık ağırlık, 4 yerel Türkçe odaklı model.

2026 Türkçe LLM Karşılaştırması — Test Edilen Modeller
ModelSağlayıcıTürBoyutContext
GPT-5OpenAIKapalıÇok büyük (tahmin)256K
Claude Opus 4.7AnthropicKapalıÇok büyük1M
Gemini 3 ProGoogleKapalıÇok büyük2M
Mistral Large 3MistralKapalıBüyük128K
GPT-4o-mini / Claude Haiku 4.5 / Gemini Flash 3ÇeşitliKapalı (küçük)Küçük-orta128K-1M
Llama 4 70BMetaAçık70B128K
Llama 4 8BMetaAçık8B128K
DeepSeek V3DeepSeekAçık671B MoE128K
Qwen 2.5 72BAlibabaAçık72B128K
Mistral 7B v3MistralAçık7B32K
CezeriYerel TRAçıkÇeşitli8K-32K
Trendyol-LLMTrendyolAçık (sınırlı)7B-13B32K
BERTurkİTÜ NLPAçıkTabanlı (BERT)512NLP tabanlı

3. Test Metodolojisi

Her model altı benchmark boyutunda standart test setlerinde değerlendirilir.

3.1. Test Setleri

Tanım
MMLU-TR
Massive Multitask Language Understanding'in Türkçe çeviri/uyarlama versiyonu. 57 alanda (matematik, hukuk, biyoloji, tarih vb.) çoktan seçmeli sorular ile genel akıl yürütme ölçer.
Ayrıca: Türkçe MMLU
  • MMLU-TR: Genel akıl yürütme (Türkçe uyarlama)
  • Belebele-TR: Türkçe okuma anlama (yüksek kalite, doğrulanmış)
  • TruthfulQA-TR: Yanlış bilgi karşı direnç
  • HellaSwag-TR: Türkçe sezgisel akıl yürütme
  • HumanEval-TR-prompt: Türkçe prompt + İngilizce kod üretimi
  • MGSM-TR: Çok-dilli ilkokul matematiği (Türkçe alt küme)
  • Türkçe Legal QA (özel set): Türk hukukundan 100 soru — TBK, TMK, KVKK, İş Kanunu
  • Türkçe Hallucination Probe: Türkçe coğrafi/tarihi/biyografik fact-checking

3.2. Değerlendirme Parametreleri

  • Temperature: 0 (deterministik karşılaştırma)
  • Few-shot: 5-shot (MMLU, HellaSwag); 0-shot (TruthfulQA, Legal)
  • Skor: Doğruluk yüzdesi (0-100)
  • Karşılaştırma adaleti: Aynı tarih aralığında yapılan testler

4. Genel Skor Tablosu

Türkçe LLM Genel Performans Skorları (2026 Q2)
ModelMMLU-TRBelebele-TRTruthfulQA-TRHallucination ↓Ortalama
Claude Opus 4.78891821287.3
GPT-58990791486.1
Gemini 3 Pro8689771683.8
Mistral Large 38083722178.4
Claude Haiku 4.57882701977.6
DeepSeek V37780682375.7
Llama 4 70B7578652673.5
GPT-4o-mini7376662472.7
Qwen 2.5 72B7275632870.3
Llama 4 8B6064523759.5
Mistral 7B v35660484255.3
Cezeri (orta)5462513657.5
Trendyol-LLM5265493258.3

Skor okumaları.

  • Üst grup (>85 ortalama): Claude Opus 4.7, GPT-5. Aralarındaki fark istatistiksel olarak küçük; göreve göre lider değişiyor.
  • İkinci grup (78-85): Gemini 3 Pro, Mistral Large 3, Claude Haiku 4.5.
  • Üçüncü grup (70-78): DeepSeek V3, Llama 4 70B, GPT-4o-mini, Qwen 2.5 72B — açık ağırlık ve "ekonomik" kapalı modeller burada.
  • Dördüncü grup (50-70): Küçük açık modeller ve yerel Türkçe modeller.

5. Kod Üretimi: Hangi Model Türkçe Prompt'ta Python Yazıyor?

Geliştiriciler için en kritik test: Türkçe doğal dilde anlatılan bir görevi hatasız Python/JS/SQL koduna çevirme.

Türkçe Prompt — Kod Üretimi Performansı
ModelHumanEval-TR pass@1SQL GenerationTürkçe Yorum + KodGenel Geliştirici Tercihi
Claude Opus 4.791%88 doğrulukÇok yüksekLider
GPT-589%87YüksekLider
Gemini 3 Pro85%83Yüksekİyi
DeepSeek V383%80YüksekAçık alternatif
Mistral Large 377%74Orta-yüksekİyi
Llama 4 70B68%66OrtaSelf-hosted için

6. Matematik ve Akıl Yürütme

Türkçe Matematik ve Akıl Yürütme
ModelMGSM-TRKarmaşık MantıkÇok-Adımlı Akıl Yürütme
GPT-593Çok yüksekEn iyi
Claude Opus 4.791Çok yüksekÇok iyi
Gemini 3 Pro88Yüksekİyi
DeepSeek V385Yüksekİyi (kod-akıl yürütmesinde özellikle)
Mistral Large 376Orta-yüksekOrta
Llama 4 70B68OrtaOrta

GPT-5'in akıl yürütme yetkinliği, OpenAI'ın "chain-of-thought" ön-eğitim odaklı yatırımının sonucudur. Karmaşık problemlerde adım-adım açıklayarak çözer; bu özellikle eğitim ve danışmanlık use-case'lerinde kritik.

7. Türkçe Hukuki Q&A

Türkçe hukuki sorular rakipsiz bir test — global benchmarklar bunu ölçmüyor; Türk hukuk metinlerinde performansı doğrudan ölçer.

Önemli not: Yüksek skorlar bile hukuki tavsiye yerine geçmez. LLM cevapları her zaman avukat denetiminden geçmeli ve resmi kanun metniyle doğrulanmalıdır.

8. Hallucination Oranı: Hangisi Daha Az Uyduruyor?

Türkçe coğrafi (şehirler, ilçeler), tarihi (Osmanlı dönemi, Cumhuriyet dönemi), biyografik (Türk yazarlar, bilim insanları) sorularda uydurma cevap oranı ölçüldü.

Türkçe Hallucination Oranı (Düşük = İyi)
ModelCoğrafiTarihiBiyografikOrtalama
Claude Opus 4.78%11%14%11%
GPT-510%13%17%13%
Gemini 3 Pro12%15%20%16%
Mistral Large 318%21%26%22%
DeepSeek V320%24%28%24%
Llama 4 70B24%27%31%27%
Llama 4 8B35%40%48%41%

9. Multimodal Görevler: Görsel + Türkçe

Multimodal Türkçe Görevler
ModelGörsel-Türkçe OCRTürkçe Belge AnaliziVideo Anlama (TR altyazı)
Gemini 3 ProLiderLiderLider (2M context avantajı)
Claude Opus 4.7Çok iyiÇok iyi-
GPT-5İyiİyiSınırlı

Gemini 3'ün native multimodal eğitimi (görsel + ses + video tek modelde) ve geniş context window'u, video transkripti + Türkçe altyazı analizi gibi görevlerde belirgin lider.

10. Maliyet-Performans Analizi

Sadece "kim daha iyi" değil, "dolar başına kim daha iyi" sorusu kurumsal kararlarda kritiktir.

Maliyet-Performans (1M token başına maliyet — input/output ortalama, 2026 Q2)
ModelTipik MaliyetGenel Türkçe SkorSkor/Dolar Verimi
Claude Haiku 4.5$1-577.6Çok yüksek
GPT-4o-mini$0.50-272.7Çok yüksek
Gemini Flash 3$0.30-1.5073-76Çok yüksek
DeepSeek V3$0.30-175.7Lider
Claude Opus 4.7$15-7587.3Orta (kaliteye değer)
GPT-5$5-1586.1Yüksek
Gemini 3 Pro$3-1083.8Yüksek
Llama 4 70B self-hostedGPU amortisman73.5Yüksek hacimde lider

Öneri pattern'i: Yüksek-stake / az hacim için Opus 4.7 veya GPT-5; günlük-yüksek hacim için Haiku / Flash / DeepSeek; veri-hassas / on-prem için Llama 4 70B self-hosted.

11. Yerli Türkçe Modeller: Gerçek Durum

Türkiye'de geliştirilen modellerin global yarışta nerede durduğunu dürüstçe değerlendirelim.

Cezeri (Türkçe Instruct Family)

Hugging Face üzerinde Türkçe instruct-tuned modeller. Boyut sınırlamaları nedeniyle general-purpose skor 50-60 aralığında. Avantajı: açık ağırlık, Türkçe odaklı eğitim. Dezavantajı: general-purpose yarışta bayrak modellerin gerisinde.

BERTurk (İTÜ NLP Grubu)

BERT tabanlı Türkçe NLP modeli. Sınıflandırma, NER (named entity recognition), sentiment analysis gibi spesifik NLP görevlerinde kapasiteli ve verimli. Generatif AI yarışında değil, NLP araştırma temelidir.

Trendyol-LLM

Trendyol'un e-ticaret odaklı Türkçe modeli. Genel benchmark'larda orta düzey, ama e-ticaret domain'inde (ürün açıklaması, kategori sınıflandırma) global modellere yakın veya üstün performans gösterir.

KanarYa

Hacettepe destekli araştırma çalışması. Henüz erken aşama, ama Türkçe-spesifik domain'lerde umut verici.

12. Use-Case Bazlı Karar Matrisi

Use-Case Bazlı Model Önerisi
Use-CaseBirinci TercihMaliyet-Verimli AlternatifVeri-Hassas Alternatif
Müşteri hizmetleri chatbot (yüksek hacim)GPT-4o-miniClaude Haiku 4.5Llama 4 70B self-hosted
İç bilgi tabanı RAGClaude Opus 4.7DeepSeek V3Qwen 2.5 self-hosted
Kod üretimi / geliştirici asistanıClaude Opus 4.7DeepSeek V3Llama 4 70B + Code Llama
Hukuki belge analiziClaude Opus 4.7GPT-5-
E-ticaret ürün açıklamasıGPT-4o-miniTrendyol-LLMMistral 7B fine-tune
Veri çıkarımı / yapılandırılmış outputGPT-5Claude Haiku 4.5DeepSeek V3
Multimodal (görsel + Türkçe)Gemini 3 ProClaude Opus 4.7-
Akademik araştırma asistanıGPT-5Claude Opus 4.7-
Eğitim / kişiselleştirmeClaude Opus 4.7GPT-5-
Pazarlama içerik üretimiGPT-5Claude SonnetMistral Large 3

13. Open vs Closed Modeller: 2026 Durum Değerlendirmesi

Açık ağırlık ve kapalı bayrak modeller arasındaki kalite farkı kapanıyor ama bitmedi.

Pratik anlamı. Açık ağırlık modeller artık yüksek-hassasiyet ve veri-egemenliği önemli use-case'lerde ciddi bir seçenek. Self-hosted Llama 4 70B veya DeepSeek V3 + iyi RAG mimarisi, çoğu kurumsal use-case için yeterli kalite üretiyor.

14. 2027'ye Doğru Beklentiler

  • Açık-kapalı farkı 5-8 puana iner. Meta'nın Llama 5 ve DeepSeek'in V4'ü, 2025-2026 büyüme hızını sürdürürse 2027'de bayrak modellere yetişebilir.
  • Türkçe ağırlığı artar. Özellikle Anthropic ve OpenAI'ın "low-resource language" yatırımları Türkçe akıcılığı ve domain'i iyileştiriyor.
  • Yerli model ekosistemi konsolide olur. TÜBİTAK ve büyük Türk teknoloji şirketleri (Trendyol, Hepsiburada, Garanti BBVA) alan-spesifik Türkçe modellere yatırım yapıyor — general-purpose değil, vertical-specific öncelik.
  • Multimodal Türkçe video/ses anlama standartlaşır. Gemini 3 + GPT-5 video sürümleri 2026'da olgunlaşacak.

15. Sıkça Sorulan Sorular

16. Metodoloji Detayları

Skorlar üç kaynaktan triangülasyonla derlendi:

  1. Sağlayıcı resmi raporları — OpenAI GPT-5 Technical Report, Anthropic Claude Opus 4.7 Card, Google Gemini 3 Tech Report. Türkçe ve genel skorlar.
  2. Bağımsız toplum benchmarkları — Open LLM Leaderboard (Hugging Face), Stanford HELM, LMSYS Chatbot Arena (Türkçe destekli).
  3. Kurumsal proje gözlemleri — Türkiye'deki 12+ aktif RAG/Agent projeden anonim performans verisi.

Sınırlamalar

  • Türkçe test setleri global setler kadar olgun değil. MMLU-TR ve benzeri çeviri tabanlı; cultural-specific sorularda yetersizlik olabilir.
  • Sürekli güncelleme zorluğu. Modeller hızlı değişiyor; bu tablo her çeyrek yeniden hesaplanır.
  • Prompt formatı etkisi. Aynı model, prompt mühendisliği farklılıklarıyla %5-10 oynayabilir; "best prompt" prensibiyle değerlendirildi.

17. Bir Sonraki Adım

Şirketiniz için doğru Türkçe LLM tercihini netleştirmek üzere:

  1. Model seçim atölyesi. Use-case, kalite hedefi, maliyet bütçesi ve uyum kısıtları 4 saatlik bir oturumda değerlendirilir. Çıktı: 2-3 model finalist + eval planı.
  2. Karşılaştırma eval'i. Kendi 30-100 soruluk eval setinizle aday modelleri test eder, somut karşılaştırma raporu üretiriz.
  3. Production deployment. Seçilen modelin Türk şirketi için RAG + KVKK + observability altyapısıyla üretime taşınması.

İletişim için site üzerindeki contact formunu kullanabilirsiniz.

Kaynaklar

  1. , Hugging Face ·
  2. , ICLR ·
  3. , arXiv ·
  4. , ACL ·
  5. , OpenAI ·
  6. , Google Research ·
  7. , Stanford University ·
  8. , LMSYS ·
  9. , Stanford University ·
  10. , Air Street Capital ·

Bu rehber çeyreklik olarak güncellenmektedir. 2027 sürümü için kalıcı URL aynıdır; "Son güncelleme tarihi" başlığı altında bakabilirsiniz.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Yorumlar

Yorumlar