Skorlar nereden geliyor?

MMLU-TR, TruthfulQA-TR, Belebele, Artificial Analysis benchmark seti + dahili Q1 2026 kalibrasyon.

Türkiye-yerel modeller nasıl?

Trendyol LLM, Cosmos, KanguruLLM gibi TR-native modeller genel benchmark'ta düşük ama TR token verimi ve domain kalitesinde yüksek.

Hangi model TR'de en iyi?

Genel: Claude 4.7 Opus / GPT-5. Üretim için fiyat/performans: Claude Sonnet veya GPT-5-mini. TR-native: Trendyol LLM 7B v3.

Çin merkezli; çok düşük marjin + ücretsiz model train edip API'yi düşük fiyatla sunuyor. KVKK m.9 yurt dışı aktarım dikkat.

TR metinler İngilizce'ye göre %20-40 daha fazla token üretir. TR-native modeller bu farkı azaltır (verim ~0.95-0.98).

Use-case skor nasıl hesaplanır?

Her use-case için boyutlara ağırlık verilir (örn. customer-support: trGeneral 0.3, contentQuality 0.25, truthfulTr 0.15, cost -0.2).

Yapay Zeka Etkileşimli Araçları

Türkçe LLM Performans Karşılaştırıcı

16+ LLM Türkçe benchmark + use-case skor + domain (banka/hukuk/sağlık) + maliyet + bölge.

Tanım

Türkçe LLM Benchmark: Büyük dil modellerinin Türkçe dilinde performansını ölçen standart eval setleri: MMLU-TR, TruthfulQA-TR, Reasoning-TR, sektörel domain testleri + token verimi ölçümleri.; Ayrıca: TR-MMLU, Türkçe LLM eval, TR benchmark, Cosmos, Trendyol LLM

Seçim

Use-CaseBölgeSadece açık ağırlık (self-host)

Modeller (4)

Sonuçlar

Üyelik Gerekli

Türkçe LLM Performans Karşılaştırıcı sonuçları üyelere açıktır

Form girdilerinizi dilediğiniz gibi değiştirebilirsiniz; sonuç tablosu, grafikler ve PDF rapor üyelik gerektirir. Üye olduğunuzda mevcut girdileriniz korunur.

Üretilen rapor ve PDF'leri panelinizden tekrar indirin
Yeni araçlar ve KVKK + EU AI Act güncellemelerinden haberdar olun
Kaynak Merkezi, Forum ve Öğrenme Portalı'na tam erişim

KVKK uyumlu kayıt — sadece ad ve e-posta. Reklam göndermeyiz, istediğin an silebilirsin.

Sıkça Sorulan Sorular

MMLU-TR, TruthfulQA-TR, Belebele, Artificial Analysis benchmark seti + dahili Q1 2026 kalibrasyon.

Kaynaklar

MMLU — Measuring Massive Multitask Language Understanding, Hendrycks et al.
TruthfulQA: Measuring How Models Mimic Human Falsehoods, Lin et al.
Belebele Multilingual Reading Comprehension, Meta
Artificial Analysis — TR Benchmark, Artificial Analysis