Skip to content

Yi-1.5 / InternLM2.5 / Aya Expanse: Underdog Comparative TR-MMLU

Llama / Qwen / Gemma are popular but not the only options. Yi-1.5 (01.AI), InternLM2.5 (Shanghai AI Lab), Aya Expanse (Cohere) — which shines in TR? Same recipe comparison on RTX 4090.

Şükrü Yusuf KAYA
28 min read
Advanced
Yi-1.5 / InternLM2.5 / Aya Expanse: Underdog'ların TR-MMLU Karşılaştırması

1. 4-Model Karşılaştırma Tablosu#

ModelVocabPre-trainTR-MMLU baseLisans
Yi-1.5 6B/9B/34B64,0003.6T (CN+EN heavy)25.4 / 28.7 / 38.2Apache 2.0
InternLM2.5 7B/20B92,5442T multilingual30.1 / 35.6Apache 2.0
Aya Expanse 8B/32B256,000200K hours synthetic (101 lang)42.3 / 47.1CC-BY-NC (research)
Llama 3.1 8B (ref)128,25615T multilingual32.4Llama license
Qwen 2.5 7B (ref)151,93618T multilingual38.1Apache 2.0
Aya Expanse 8B TR-MMLU 42.3 (!) — popüler modellerden iyi. Ama:
  • Lisans: CC-BY-NC — commercial use yasak
  • Cohere Research License
  • Production'da kullanılamaz, sadece research
Karar matrisi:
  • Commercial + TR → Qwen 2.5 7B (38.1)
  • Research + TR → Aya Expanse 8B (42.3)
  • Math/Code → Phi-4 (English) veya Qwen 2.5 Coder
  • Edge → SmolLM3 1.7B

2. Aya Expanse — Cohere'in 101-Language Specialist'ı#

Aya Expanse 8B (Cohere, Kasım 2024):
  • 256K vocab (Gemma seviyesinde)
  • 101 dil pre-train + SFT
  • Aya datasetler family (Cohere Aya Initiative — community translations)
  • TR specifically high quality (Türkçe data %2.3 — büyük ratio)
Reçete: Aya Expanse 8B + custom TR domain SFT → cookbook'un Part IX'unda detaylı.
✅ Teslim
  1. 4 modeli aynı 1000 TR Alpaca subset ile FT et. 2) TR-MMLU + MT-Bench-TR ölç, tablo çıkar. 3) Sonraki ders: 3.11 — Comparative Lab: Same Recipe 10 Models.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content