İçeriğe geç
Yapay Zeka·36 dk·27 Mayıs 2026·2

2026 LLM Benchmark Sözlüğü: MMLU, HumanEval, SWE-bench, ARC-AGI-2, GPQA, AIME, LiveCodeBench Neyi Ölçer, Sayılar Ne Anlama Geliyor?

MMLU, HumanEval, SWE-bench Verified/Pro, ARC-AGI-2, GPQA Diamond, AIME, LiveCodeBench v6, Terminal-Bench 2.0, OSWorld, HLE ve Türkçe benchmark'lar (TR-MMLU, TUMLU) — her birinin neyi ölçtüğü, frontier eşikleri, kontaminasyon ve cherry-picking riskleri, CTO + yatırımcı + mühendis için pratik anlam. 32+ kaynak.

SYK
Şükrü Yusuf KAYA
AI Expert · Kurumsal AI Danışmanı
2026 LLM Benchmark Sözlüğü: MMLU, HumanEval, SWE-bench, ARC-AGI-2, GPQA, AIME, LiveCodeBench Neyi Ölçer, Sayılar Ne Anlama Geliyor?

1. Giriş: Neden Bir Benchmark Sözlüğü?

Bir vendor "GPT-5.5 SWE-bench Verified'de %82" der ve teknoloji medyası bunu manşete taşır. Ama bu sayı:

  • CTO için: "Mühendislerim AI ile %82 daha hızlı mı kod yazacak?" — Hayır, doğrudan değil.
  • Yatırımcı için: "Bu şirket frontier mi?" — Belki, ama kontaminasyona dikkat.
  • ML Mühendisi için: "Modelimizi seçmek için bu yeterli mi?" — Asla yetmez, görev-spesifik eval gerekli.

Her benchmark farklı bir şey ölçer. Farklı eşiklere sahiptir. Farklı kontaminasyon risklerine açıktır. Bu rehber, 2026 yılı LLM benchmark dünyasının dürüst bir haritasıdır.

Tanım
LLM Benchmark
Bir büyük dil modelinin yetkinliğini standart bir ölçütle test eden, kamuya açık veri kümesi ve protokoldür. Çoktan seçmeli sorulardan kapalı-kutu yazılım mühendisliği görevlerine ve agentic computer-use ortamlarına kadar değişir. Her benchmark belirli bir yetkinliği ölçer; tek bir benchmark genel zeka için yeterli değildir.
Ayrıca: LLM eval, AI benchmark
Wikidata: Q105843828

2. Benchmark'ların Anatomisi: Beş Kategori

LLM benchmark'ları beş ana kategoriye ayrılır:

  1. Bilgi + Muhakeme (MMLU, GPQA, HLE, ARC-AGI)
  2. Matematik (AIME, MATH, GSM8K)
  3. Kod (HumanEval, MBPP, SWE-bench, LiveCodeBench, Terminal-Bench)
  4. Agentic + Computer Use (OSWorld, AgentBench, WebArena)
  5. Dil-Spesifik (TR-MMLU, TUMLU, CMMLU, JMMLU)

Bir model "frontier" denebilmesi için her kategoride yüksek skor alması gerekir — sadece birinde değil.

3. Karşılaştırma: 2026'nın Önemli Benchmark'ları

2026 LLM Benchmark Manzarası: Frontier Eşikleri
BenchmarkNe ölçerMaksimumFrontier eşiği (2026)Doygunluk?
MMLU57 alan genel bilgi%100%88+Evet (doygun)
MMLU-ProDaha zor MCQ%100%80+Hayır
GPQA DiamondGraduate-level QA%100%75+Hayır
HumanEvalPython kod yazma%100%92+Evet (doygun)
MBPPPython basic%100%85+Doygunlaşıyor
LiveCodeBench v6Güncel kod problemleri%100%65+Hayır (rolling)
SWE-bench VerifiedGerçek GitHub PR'ları%100%80+Yaklaşıyor
SWE-bench ProÇok-dosyalı yazılım%100%46+Hayır
ARC-AGI-1Görsel akıl yürütme%100%88+Evet (2024 sonu)
ARC-AGI-2Görsel akıl, daha zor%100%55+Hayır
AIMEOlimpiyat matematik30/3026+Hayır
MATHLise matematik%100%92+Doygunlaşıyor
GSM8Kİlkokul mat (CoT)%100%96+Evet (doygun)
Terminal-Bench 2.0CLI agent%100%38+Hayır
OSWorldComputer use agent%100%24+Hayır
HLEÇoğul-domain insan-zor%100%34+Hayır
TR-MMLU v2Türkçe 67 alan%100%82+Hayır
TUMLUTürkçe 32 görev%100%78+Hayır

4. Pratik: Her Benchmark'ın Detayı

4.1. MMLU (Massive Multitask Language Understanding)

Kim, Ne Zaman: Hendrycks et al., 2020. Stanford + Berkeley.

Ne Ölçer: 57 alan (matematik, hukuk, tıp, tarih, etik, ekonomi) üzerinde çoktan seçmeli; ~14.000 soru. Lise + üniversite + meslek düzeyi.

2026 Durumu: Doygun benchmark. GPT-5.5 %92.4, Claude Opus 4.7 %92.1, Gemini 3.1 Pro %91.7 — frontier modeller birbirinden ayrılamıyor.

Frontier Eşiği: %88+.

Kontaminasyon Riski: Yüksek. 2020'den beri var; veri büyük olasılıkla tüm major modellerin eğitim setinde mevcut. Bu yüzden 2024+ döneminde MMLU "ayrımcı" değil, "minimum giriş eşiği" olarak görülmeli.

4.2. MMLU-Pro

Kim, Ne Zaman: TIGER-Lab + Wang et al., 2024.

Ne Ölçer: MMLU'nun daha zor versiyonu; 10 seçenek (eski 4'tü), CoT-gerektiren sorular. ~12.000 soru.

2026 Durumu: Frontier %82-85 arası. Henüz doygun değil ama 2027'de doyacak.

Frontier Eşiği: %80+.

4.3. GPQA (Graduate-level Google-Proof Q&A)

Kim, Ne Zaman: Rein et al., 2023.

Ne Ölçer: PhD-seviye Biyoloji + Kimya + Fizik soruları. "Google-proof": cevapları Google aramayla bulamazsınız; konunun derinlikli anlaşılması gerekir. GPQA Diamond, 198 sorudan oluşan en zor alt-set.

2026 Durumu: GPT-5.5 %78.4, Claude Opus 4.7 %79.2, Gemini 3.1 Pro %76.8. Frontier'i ayıran benchmark.

Frontier Eşiği: %75+.

Kontaminasyon Riski: Düşük-orta (özel olarak Google-proof tasarlandığı için).

4.4. HumanEval

Kim, Ne Zaman: Chen et al. (OpenAI), 2021.

Ne Ölçer: 164 Python programlama problemi; fonksiyon imzası + docstring verilir, model implementasyonu yazar; unit test ile skorlanır.

2026 Durumu: Doygun benchmark. GPT-5.5 %94.7, Claude Opus 4.7 %95.1, Gemini 3.1 Pro %93.8. Frontier modeller arasında ayrımcı değil.

Frontier Eşiği: %92+.

Kontaminasyon Riski: Çok yüksek. Bu 164 problem 2021'den beri kamuya açık; tüm büyük modellerin eğitim verisinde yer aldığı pratik olarak kesin. Üretim seçim kriteri olarak kullanmayın.

4.5. MBPP (Mostly Basic Python Problems)

Kim, Ne Zaman: Google, 2021.

Ne Ölçer: 974 basic Python problem; HumanEval'den daha geniş ama daha yüzeysel.

2026 Durumu: Frontier %86-88. Doygunlaşıyor.

Frontier Eşiği: %85+.

4.6. LiveCodeBench v6

Kim, Ne Zaman: Jain et al., 2024; v6 — 2026.

Ne Ölçer: Codeforces, LeetCode, AtCoder, HackerRank'tan rolling update ile çekilen problemler. Her ay yeni problemler eklenir; eski problemler kaldırılır. Bu sayede kontaminasyondan büyük ölçüde korunur.

2026 Durumu (Mayıs): GPT-5.5 %68.4, Claude Opus 4.7 %66.7, Gemini 3.1 Pro %64.2. Genç frontier benchmark'ı; en iyi ayrımcılık burada.

Frontier Eşiği: %65+.

Kontaminasyon Riski: Düşük (rolling design ile).

4.7. SWE-bench Verified

Kim, Ne Zaman: Princeton + Carlsbad, 2024; Verified subset OpenAI'in temizlenmiş versiyonu.

Ne Ölçer: 500 gerçek GitHub issue + PR; modelin issue'yu okuyup repository'deki kodu değiştirerek issue'yu çözmesi istenir. Verified, "test edilebilir + temiz" olduğu manuel olarak doğrulanan 500 örnek.

2026 Durumu: GPT-5.5 %82.3, Claude Opus 4.7 %84.1, Gemini 3.1 Pro %78.6. Frontier eşik yaklaşımı %80+.

Frontier Eşiği: %80+.

Önem: Yazılım mühendisliği görevlerinde gerçek-dünya pratik kapasitesini ölçen en önemli benchmark. CTO'lar için doğrudan ilgili.

4.8. SWE-bench Pro (2025'in en önemli benchmark'ı)

Kim, Ne Zaman: OpenAI duyurusu Eylül 2025.

Ne Ölçer: SWE-bench'in profesyonel-zorluk versiyonu. Çoklu-dosya, çoklu-modül, çoklu-dil değişiklikler içerir. Açık kaynak repository'lerden değil, kontaminasyondan koruma için özel olarak kuratüre edilmiş kapalı görevlerden oluşur.

2026 Durumu (Mayıs): GPT-5.5 %46.3, Claude Opus 4.7 %47.8, Gemini 3.1 Pro %41.2. Bu, gerçek-dünya yazılım mühendisliğinde ne kadar yol olduğunu gösterir.

Frontier Eşiği: %46+.

Neden Bu Kadar Önemli: SWE-bench Verified üzerindeki %80+ skorlar, kontaminasyon + benchmark gaming sayesinde aşırı iyimser. Pro, temiz + gerçekçi bir ölçü. OpenAI'in resmi pozisyonu: "SWE-bench Pro yeni frontier eşiğidir."

4.9. ARC-AGI-1 (Abstraction and Reasoning Corpus)

Kim, Ne Zaman: François Chollet, 2019.

Ne Ölçer: Görsel akıl yürütme bulmacaları; 3-5 örnek input/output verilir, kural çıkarılır, yeni input'a uygulanır. "Fluid intelligence" ölçüsü olarak tasarlandı.

2026 Durumu: Doygun. OpenAI o3 modeli 2024 sonunda %88 ile sembolik insan-paritesi geçti. Sonra ARC-AGI-2 yayınlandı.

Frontier Eşiği: %88+.

4.10. ARC-AGI-2

Kim, Ne Zaman: François Chollet + ARC Prize, 2025.

Ne Ölçer: ARC-AGI-1'in daha zor versiyonu; tasks daha karmaşık + daha az örnek + daha geniş kavram havuzu.

2026 Durumu (Mayıs): Frontier ~%55-65. Saf reasoning modelleri (o4-pro, Claude Opus 4.7 thinking, Gemini 3.1 Pro Thinking) %60-65; "düz" modeller %35-40. İnsan baseline'ı: %85.

Frontier Eşiği: %55+ (insan-paritesi henüz uzak).

4.11. AIME (American Invitational Mathematics Examination)

Kim, Ne Zaman: Mathematical Association of America. Yıllık.

Ne Ölçer: Lise olimpiyat matematik; 15 problem × 2 sınav = 30 problem yıllık. Her cevap 0-999 arası integer.

2026 Durumu: GPT-5.5 (thinking) %86.7 (26/30), Claude Opus 4.7 (thinking) %83.3, Gemini 3.1 Pro Thinking %90 (27/30). 2026'da reasoning modelleri olimpiyat seviyesinde.

Frontier Eşiği: 26/30+.

Önem: AIME'de iyi skor, modelin sistematik matematik akıl yürütme yapabildiğini gösterir.

4.12. MATH

Kim, Ne Zaman: Hendrycks et al., 2021.

Ne Ölçer: 12.500 lise matematik problemi; cevap LaTeX formatında.

2026 Durumu: Frontier %92-95. Doygunlaşıyor.

Frontier Eşiği: %92+.

4.13. GSM8K (Grade School Math 8K)

Kim, Ne Zaman: Cobbe et al. (OpenAI), 2021.

Ne Ölçer: 8.500 ilkokul/ortaokul matematik problemi; doğal dil "word problem"ları.

2026 Durumu: Doygun. Frontier %96+. Pratik olarak ayrımcı değil.

Frontier Eşiği: %96+.

4.14. Terminal-Bench 2.0

Kim, Ne Zaman: OSWorld + LMSYS, 2025.

Ne Ölçer: CLI/terminal görevleri; agent, bash + git + Docker + kubectl gibi araçları kullanarak gerçek mühendislik görevini çözmek zorunda. Multi-turn, açık-uçlu.

2026 Durumu: Claude Opus 4.7 %42, GPT-5.5 %38, Gemini 3.1 Pro %35. Genç ve zor benchmark — gerçek SRE/DevOps görevlerine yakın.

Frontier Eşiği: %38+.

4.15. OSWorld

Kim, Ne Zaman: Xie et al., 2024.

Ne Ölçer: Bir Linux/Ubuntu masaüstü ortamı; agent mouse + klavye kullanarak tarayıcı + LibreOffice + dosya yöneticisi gibi GUI uygulamalarında görev çözer. Anthropic Claude'un "computer use" özelliği için temel benchmark.

2026 Durumu: Claude Opus 4.7 %28.4, GPT-5.5 (Operator) %22.7, Gemini 3.1 Pro %19.3. İnsan baseline: %72.4. Çok yol var.

Frontier Eşiği: %24+.

4.16. HLE (Humanity's Last Exam)

Kim, Ne Zaman: Center for AI Safety + Scale AI, 2025.

Ne Ölçer: PhD-seviye çoğul-domain sorular; matematik, fizik, biyoloji, sosyal bilim, mühendislik. Cevapları PhD uzmanları yazmış; internet aramayla kolay bulunmasın diye optimize edilmiş. ~3.000 soru.

2026 Durumu: Claude Opus 4.7 %36.2, GPT-5.5 %34.1, Gemini 3.1 Pro %31.8. İnsan PhD baseline: %82.

Frontier Eşiği: %34+.

Adı: "Humanity's Last Exam" — "Eğer modeller burayı geçerse, insanı bilgi-yaratıcı olarak ayırt edecek başka bir şey kalmaz."

4.17. Türkçe Benchmark'lar: TR-MMLU ve TUMLU

Detaylı analizimiz için: chatgpt-vs-claude-vs-gemini-turkce-test-tr-mmlu-2026 blog yazımıza bakın.

TR-MMLU v2 (2024+2026): 67 alan, 6.200 soru. Frontier %82-85. Türk pazarı için MMLU'dan çok daha bilgilendirici.

TUMLU (2025): 32 görev (özetleme, çeviri, NER, sentiment, vs.), 14.800 örnek. Frontier %78-80.

TurkishMMLU-Pro (2026): Graduate-level Türkçe. Frontier %62-66.

5. Performans: Frontier Modellerin Konsolide Skor Tablosu

2026 Mayıs Konsolide Skor Tablosu: Frontier Modeller
BenchmarkGPT-5.5Claude Opus 4.7Gemini 3.1 ProLlama 4 MaverickDeepSeek V3.2
MMLU%92.4%92.1%91.7%89.3%88.7
MMLU-Pro%83.7%84.6%82.9%79.4%78.2
GPQA Diamond%78.4%79.2%76.8%71.3%69.4
HumanEval%94.7%95.1%93.8%92.1%91.6
LiveCodeBench v6%68.4%66.7%64.2%56.8%59.3
SWE-bench Verified%82.3%84.1%78.6%67.4%64.8
SWE-bench Pro%46.3%47.8%41.2%29.7%27.4
ARC-AGI-2%62.4%64.7%59.3%38.6%41.2
AIME%86.7%83.3%90.0%62.4%67.8
Terminal-Bench 2.0%38.4%42.1%35.7%21.4%23.7
OSWorld%22.7%28.4%19.3%11.8%10.4
HLE%34.1%36.2%31.8%21.4%23.7
TR-MMLU v2%82.4%84.1%80.7%71.3%72.8

Sonuç:

  1. Frontier'da gerçek 3 model var: GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro.
  2. Llama 4 Maverick ve DeepSeek V3.2 çoğu benchmark'ta frontier eşiğine yakın ama henüz orada değil — özellikle ARC-AGI-2, SWE-bench Pro, Terminal-Bench, OSWorld'de gözle görülür açık var.
  3. Açık kaynak modeller kapanışa yakın ama 2026'da hala 1-2 puan geride.

6. Türkiye Açısı: Türk CTO/Yatırımcı/Mühendis İçin Pratik Anlam

6.1. Türk CTO İçin: "Hangi Benchmark'a Bakmalıyım?"

Cevap: Görev türüne göre:

  • Müşteri destek + chatbot → TR-MMLU + TUMLU
  • Türkçe içerik üretimi → TUMLU (Creative Writing alt-skoru)
  • Hukuki/regülatif yazım → TR-MMLU (Hukuk alt-skoru)
  • Yazılım takımı productivitySWE-bench Pro (Verified değil, Pro), LiveCodeBench v6
  • Karmaşık iş süreçleri → Terminal-Bench 2.0, OSWorld
  • Finansal modelleme + reasoning → AIME, GPQA Diamond, ARC-AGI-2

6.2. Türk Yatırımcı İçin: "Bu Şirket Frontier mi?"

Cevap basit: tek bir benchmark yetmez. Frontier model 5 boyutta birden yüksek skor almalı:

  1. Bilgi/muhakeme (MMLU-Pro %80+, GPQA %75+)
  2. Kod (SWE-bench Pro %45+, LiveCodeBench v6 %65+)
  3. Matematik/reasoning (AIME 26+, ARC-AGI-2 %55+)
  4. Agentic (Terminal-Bench %38+, OSWorld %20+)
  5. Türkçe (yerli pazar için) (TR-MMLU %80+, TUMLU %75+)

Vendor pitch deck'te yalnız MMLU'dan bahsediyorsa, kuşkulanın — büyük olasılıkla diğer benchmark'larda zayıf.

6.3. Türk ML Mühendisi İçin: "Production'da Hangi Modeli Seçeyim?"

Benchmark başlangıç noktası, üretim eval gerçek karar. Adımlar:

  1. Görev türünü tanımla (RAG, chatbot, kod yardımcısı, vs.)
  2. İlgili benchmark'larda top-3 model belirle
  3. Kendi 50-100 promptluk Türkçe eval set'in ile karşılaştır
  4. Maliyet + latency dahil karar ver
  5. Üretimde sürekli izle (regresyon koruması)

7. Vaka Çalışmaları: Türk Şirketlerinde Benchmark-Karar Uyuşmazlığı

Vaka 1 — Türk SaaS Şirketi: HumanEval'e Güvenip Yanıldı

Hikaye. Bir Türk SaaS şirketi, kod yardımcısı modeli seçiminde HumanEval skorlarına bakarak Model X'i seçti (%95.4). Üretime alındıktan 6 hafta sonra mühendis verimliliği beklenenin %40 altında çıktı.

Sebep. HumanEval kontaminasyon + standalone Python fonksiyonu odaklı. Mühendislerin gerçek görevi: multi-dosya değişiklik, mevcut codebase'e entegrasyon, Türkçe yorum yazma. SWE-bench Pro skoru kontrol edilseydi Model X'in %30 skoru görülecekti — frontier'ın altında.

Ders. Üretim seçim kriteri olarak HumanEval kullanmayın. SWE-bench Pro + LiveCodeBench v6 + kendi codebase'inizde eval.

Vaka 2 — Türk Banka: GPQA'ya Bakıp Yanıldı

Hikaye. Bir Türk banka, finansal analiz asistanı için GPQA Diamond skoruna bakarak Model Y'yi seçti (%78). Türk finans piyasası sorularında performans hayal kırıklığı yaratıyor.

Sebep. GPQA Diamond İngilizce + PhD-fen sorularına odaklı. TR-MMLU Finans + BIST alt-skoru kontrol edilseydi Model Y'nin sadece %71 olduğu görülecekti — frontier altı.

Ders. Türk pazarı için Türkçe benchmark'lar kritik. İngilizce skor, Türkçe performansa garanti vermez.

Vaka 3 — Türk E-Ticaret: Doğru Benchmark Seçti

Hikaye. Bir Türk e-ticaret şirketi, ürün arama asistanı için 4 farklı benchmark'a baktı: TUMLU NER + TUMLU Sentiment + LiveCodeBench v6 (e-commerce API integration için) + OSWorld (autonomous shopping testleri için). Üç model arasında karar verirken hangi modelin her dört benchmark'ta da frontier eşiğini geçtiğini kontrol etti.

Sonuç. Doğru model seçildi; üretimde 3 ay sonra ürün dönüşüm oranı %18 arttı, müşteri memnuniyeti +0.3 Likert.

Ders. Çoklu benchmark + Türkçe-spesifik benchmark + use-case spesifik benchmark = doğru karar.

8. Riskler: Kontaminasyon, Cherry-Picking, Doygunluk

8.1. Benchmark Kontaminasyonu

Tanım. Benchmark sorularının veya cevaplarının modelin eğitim verisinde istem dışı yer almış olması.

Tür 1: Eğitim-Veri Sızıntısı. Soru + cevap pre-training verisinde. Çözüm: rolling-update benchmark'lar (LiveCodeBench, SWE-bench Pro).

Tür 2: Post-train Kontaminasyon. Fine-tuning veya RLHF aşamasında benchmark sorularının optimizasyon hedefi olarak kullanılması. Daha tehlikeli çünkü kasıtlı.

Tür 3: Test Set Memorization. Model, sorunun cevabını ezberlemiş ama akıl yürütemiyor. Tespiti: aynı soruyu birkaç yeniden-ifadeyle test edin; skor düşerse memorization vardır.

8.2. Vendor Cherry-Picking

Vendor'lar kendi modellerinin parladığı benchmark'ları seçer; rakip modellerin parladığı benchmark'ları gizler. Örnekler:

  • 2024 sonu: OpenAI "ARC-AGI-1'de %88" diye duyurdu (doğru) ama ARC-AGI-2'nin %25 olduğunu gizledi (2025'te ARC-AGI-2 yayınlandığında ortaya çıktı).
  • 2025: Bir vendor "MMLU'da #1" dedi ama SWE-bench Pro skorunu raporlamadı.
  • 2026 Q1: Birden fazla vendor "LiveCodeBench skoru" duyurdu ama hangi v versiyonu kullanıldığını belirtmedi (v3 mü v6 mı?).

Çözüm: Her zaman bağımsız leaderboard'lara bakın: Vellum LLM Leaderboard, Artificial Analysis, LMSYS Chatbot Arena, CodeSOTA, BenchLM.

8.3. Benchmark Doygunluğu

Bir benchmark frontier %95+ skorlar üretmeye başladığında "doygun" olur ve ayrımcılığını yitirir. 2026'da doygun benchmark'lar: MMLU, HumanEval, GSM8K. Bunların yerine MMLU-Pro, LiveCodeBench v6, MATH-Hard kullanılmalı.

9. Sıkça Sorulan Sorular

<callout-box data-variant="answer" data-title="Bir model "ARC-AGI-2'de SOTA" diyorsa ne anlama gelir?">

ARC-AGI-2 SOTA, fluid intelligence + öğrenme transferi boyutunda lider olduğunu gösterir. Yine de insan baseline'ı (%85) henüz geçilmedi. Mid-60s skor = "umut verici reasoning kapasitesi", insan-paritesi değil.

10. Sonraki Adım

Şirketinizde LLM benchmark stratejisi veya eval harness kurmak için:

  1. Benchmark karar atölyesi. Use-case'inize uygun 5-7 benchmark belirleriz; vendor pitch'lerini bu benchmark'lar üzerinden değerlendiririz.
  2. Türkçe eval set kurulumu. Kendi domain'inize özel 100-200 promptluk Türkçe + İngilizce eval set + otomatik regresyon koruması.
  3. Model selection raporu. Mevcut model seçiminizin frontier modellerle karşılaştırması; ROI hesabı + KVKK uyum + maliyet analizi.

İletişim için site üzerindeki contact formu kullanılabilir.

Kaynaklar

  1. , arXiv ·
  2. , arXiv ·
  3. , arXiv ·
  4. , arXiv ·
  5. , arXiv ·
  6. , arXiv ·
  7. , arXiv ·
  8. , OpenAI ·
  9. , OpenAI ·
  10. , arXiv ·
  11. , ARC Prize ·
  12. , AoPS ·
  13. , arXiv ·
  14. , arXiv ·
  15. , GitHub ·
  16. , arXiv ·
  17. , CAIS + Scale ·
  18. , arXiv ·
  19. , arXiv ·
  20. , arXiv ·
  21. , Vellum ·
  22. , Artificial Analysis ·
  23. , LMSYS ·
  24. , CodeSOTA ·
  25. , BenchLM ·
  26. , arXiv ·
  27. , arXiv ·
  28. , arXiv ·
  29. , OpenAI ·
  30. , Anthropic ·
  31. , Google ·
  32. , Sentezbilisim ·
  33. , sukruyusufkaya.com ·

Bu rehber yaşayan bir belgedir; benchmark dünyası her çeyrek değiştiği için çeyreklik olarak güncellenir.

Danismanlik Baglantilari

Bu yazıya en yakın consulting sayfaları

Bu içerikten sonraki mantıklı adım için en ilgili solution, role ve industry landing'lerini burada görebilirsin.

Yorumlar

Yorumlar