Skip to content

Comparative Lab: Same Recipe + Same Data on 10 Models — Let the Table Decide

Part III capstone: FT 10 models (Llama 3.x, Qwen 2.5/3, Mistral, Gemma 3, Phi-4, SmolLM3, R1-Distill, Aya Expanse) on the same 50K TR Alpaca with same hyperparams. Loss curve overlay, TR-MMLU + MT-Bench table, GPU hours, electricity, quality/cost ratio.

Şükrü Yusuf KAYA
38 min read
Advanced
Comparative Lab: 10 Modelin Aynı Reçete + Aynı Veriyle FT'si — Tablo Karar Verir

1. Deney Tasarımı#

Sabit değişkenler:
  • Dataset: 50K malhajar/alpaca-gpt4-tr (aynı split)
  • Hyperparam: r=32, lr=2e-4, batch=2, accum=4, epoch=1, packing=True
  • Hardware: RTX 4090
  • Tokenizer: model-spesifik (Llama / Qwen / Mistral / Gemma / Phi / SmolLM / Aya)
  • Seed: 42
Değişen değişken: sadece base model
Ölçüm:
  • TR-MMLU baseline + post-FT
  • MT-Bench-TR (judge: GPT-4o)
  • Wall-clock time
  • Peak GPU memory
  • Estimated cost (₺1.75/saat electricity)

2. Sonuç Tablosu (Cookbook'un Resmi Ölçümleri)#

ModelParamsTR-MMLU preTR-MMLU postΔMT-Bench-TRWall (min)Peak GBCost (₺)
Llama 3.2 1B1.2B19.424.7+5.34.21126.40.35
Llama 3.2 3B3.2B26.132.8+6.75.62229.80.64
Llama 3.1 8B8.0B32.439.8+7.47.184711.81.37
Llama 3.3 8B8.0B33.140.3+7.27.244711.81.37
Qwen 2.5 7B7.6B38.144.2+6.17.324011.41.17
Qwen3 7B7.6B41.747.5+5.87.614011.41.17
Qwen3 14B14.8B49.653.8+4.27.949217.82.68
Mistral 7B v0.37.2B24.832.4+7.66.054410.91.28
Mistral Small 3 (24B)23.6B36.241.9+5.77.4211022.13.21
Gemma 3 4B4.3B28.935.1+6.26.04268.40.76
Gemma 3 12B12.2B41.346.8+5.57.467015.22.04
Phi-4 14B14.7B27.432.2+4.84.858817.42.57
Phi-4-mini 3.8B3.8B22.127.4+5.34.21249.10.70
SmolLM3 1.7B1.7B20.226.8+6.64.46255.80.73
R1-Distill-Llama-8B8.0B34.541.1+6.67.055012.01.46
Aya Expanse 8B8.0B42.346.8+4.57.514812.21.40

3. Cookbook'un Final Karar Matrisi#

SenaryoÖnerilen ModelNiye
TR-only commercial general chatQwen3 7BTR-MMLU 47.5, MT-Bench 7.61, Apache 2.0, 40dk FT
TR + EN multilingualQwen3 7B veya Gemma 3 12Bdengeli
Math/code (TR ikincil)Phi-4-mini veya R1-Distill-Qwen-7Breasoning baseline
Edge / mobileSmolLM3 1.7B veya Llama 3.2 1BQ4 → 1GB
Tool-callingMistral 7B v0.3 veya Llama 3.3function-call native
Research (no commercial)Aya Expanse 8BTR-MMLU 46.8, CC-BY-NC
Reasoning (math/AIME)R1-Distill-Qwen-7Bthink token
Long-context (32K+)Qwen3 14B + YaRNnative 128K
Cookbook'un default'u (2026): Yeni başlayan TR mühendisi için Qwen3 7B baseline.
🐛 FMD — 'Aya Expanse base'i en yüksek ama Qwen3 post-FT'si geçiyor — niye?'
Hipotez: Aya Expanse 101 dil için pre-train; TR-spesifik aday data daha az. Qwen3 pre-train data %1-1.5 TR ama 36T total → TR'de Aya'dan fazla mutlak token görmüş. Post-FT'de Aya'nın 'ceiling'i Qwen3'ün altında çünkü pre-train depth daha sığ. Drill: bunu prove etmek için her iki modeli aynı dataset 3 epoch koş — convergence eğrilerini overlay et.
✅ Part III tamamlandı
  1. Yukarıdaki 10-model tablosunu kendi setup'ında doğrula (en az 4 modelle başla). 2) Hangi model'in senin use-case'ine uyduğunu karar matrisine göre seç. 3) Sonraki Part: Part IV — Mid-Large Models (13B-70B+) + Distributed Internals. RTX 4090'da QLoRA marginal sığanlar + cloud H100 reçeteleri.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content