Capstone Modül 21: TR-LLMArena — Türkçe LMSys-tarzı Community Leaderboard
Modül 21 capstone: Türkçe LMSys benzeri community-driven leaderboard. Çift-anonim A/B vote sistemi, ELO ranking, aylık leaderboard. HuggingFace Spaces deploy, GPT-4o/Claude/Llama-3 vs Türkçe modeller (Modül 14-20 capstone'ları). Türkçe AI ekosistemine somut bilim katkısı. Müfredatın 12. production artefaktı.
Şükrü Yusuf KAYA
85 dakikalık okuma
İleri🏆 Capstone — 12. Production Artefakt: TR-LLMArena
Modül 21'in 2 dersinde LLM benchmark'larının anatomi'sini ve production evaluation framework kurmayı öğrendik. Şimdi bunları Türkçe AI ekosistemine kalıcı katkı'ya dönüştürüyoruz: TR-LLMArena.
Hedef: lmarena.ai gibi bir Türkçe versiyon. Kullanıcılar Türkçe soru sorar, iki anonim model cevap verir, kullanıcı 'hangisi daha iyi' diye oy verir. ELO ranking ile aylık leaderboard.
Test edilecek modeller (başlangıç):
- GPT-4o (OpenAI)
- Claude 3.5 Sonnet (Anthropic)
- Gemini 1.5 Pro (Google)
- Llama-3.1-405B (Meta)
- Mistral Large (Mistral AI)
- DeepSeek-V3 (DeepSeek)
- Modül 14.3 capstone: Türkçe SFT Llama
- Modül 15.6 capstone: Türkçe DPO Llama
- Modül 17.5 capstone: Türkçe Reasoning R1-Distill
- Modül 18.4 capstone: Türkçe Mixtral DPO
Tech stack:
- HuggingFace Spaces (Gradio) — frontend + hosting
- FastAPI backend (vote logic)
- SQLite (ELO state, vote history)
- KVKK uyumlu (anonim oy, no user data retention)
Maliyet: ~$200/ay (model API calls + HF Spaces premium).
Müfredatın 12. production artefaktı: arena.sukruyusufkaya.com. Aynı zamanda Türkçe AI community için ortak kaynak. 85 dakikada Türkçe AI ekosistemine somut bilim katkısı yapıyorsun.
Capstone Akışı (10 Aşama)#
- Sistem mimarisi — arena flow
- ELO ranking matematik — chess-style
- Çift-anonim vote sistemi
- Gradio UI — kullanıcı sohbeti + vote
- Backend FastAPI — vote logic + ELO update
- SQLite state management
- HuggingFace Spaces deploy
- Model ekleme — 10 model bağla
- Monthly leaderboard publication
- KVKK + community management
🎉 Modül 21 Tamamlandı — LLM Evaluation'ın Tam Anatomi
Modül 21 final (3 ders, 250 dakika):
- 21.1: Benchmark Anatomi — MMLU/HumanEval/Arena/GPQA + Türkçe TR-MMLU/MUKAYESE
- 21.2: Production Eval Framework — kendi test set'in + LLM-as-judge + A/B testing
- 21.3 Capstone: TR-LLMArena — Türkçe community leaderboard, 12. production artefakt
Müfredatın 12. production artefaktı: . Türkçe AI ekosistemine bilim katkısı.
arena.sukruyusufkaya.comÖnceki: 1 ders / 70 dk → Şimdi: 3 ders / 250 dk. 3.6× genişleme, uzman kalitesi.
Modül 21 Envanteri (Yeniden Yazıldı)#
| # | Ders | Süre |
|---|---|---|
| 21.1 | Benchmark Anatomi: MMLU → Arena | 80 dk |
| 21.2 | Production Eval Framework | 85 dk |
| 21.3 | Capstone TR-LLMArena | 85 dk |
| Toplam | 3 ders | 250 dk (~4.2 saat) |
Önceki: 1 ders / 70 dk → Şimdi: 3 ders / 250 dk.
Sık Sorulan Sorular
**Minimum güvenilir**: 1,000 oy/model. Yani 10 model için **10,000 oy** total.
**İyi konvergans**: 5,000-10,000 oy/model.
**LMSys reference**: 2024 itibarıyla 2M+ oy. Top model'ler 100K+ oy.
**Realistic Türkçe target**:
- 1. ay: 500-1,000 oy (early adopters)
- 3. ay: 5,000-10,000 oy
- 6. ay: 30,000-50,000 oy (anlamlı leaderboard)
**Strateji**: AI Türkiye, Türkçe NLP topluluklarına duyuru. Üniversiteler (Boğaziçi, ODTÜ, Bilkent NLP grupları). Twitter/X duyurusu. Press release.
**Realistic outcome**: 6-12 ay sonra anlamlı, 1-2 yıl sonra industry-recognized.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Kurs Çerçevesi ve Atölye Kurulumu
LLM Engineer Kimdir? Junior'dan Staff'a Yapay Zekâ Mühendisliği Kariyer Haritası
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu
Kurs Felsefesi: Neden Bu Yol, Neden Bu Sıra — 8 Aylık Müfredatın İskeleti
Öğrenmeye BaşlaModül 0: Kurs Çerçevesi ve Atölye Kurulumu