İçeriğe geç

Code Eval: HumanEval + MBPP + BigCodeBench + LiveCodeBench + SWE-Bench-Lite

Code LLM'in standart benchmark suite'i: HumanEval (164 Python problem), MBPP (974 Python), BigCodeBench (1140 calls 139 lib), LiveCodeBench (datas leak-resistant), SWE-Bench-Lite (300 real GitHub issue fix). Pass@1 vs pass@10 metric, code execution sandbox. RTX 4090'da bench koşma.

Şükrü Yusuf KAYA
26 dakikalık okuma
İleri
Code Eval: HumanEval + MBPP + BigCodeBench + LiveCodeBench + SWE-Bench-Lite

1. Code Benchmark Tablosu#

BenchmarkSizeTypeNotlar
HumanEval164function-level Pythonklasik, data-leak riski
HumanEval-X (multilingual)164 × 66 dilEN + ZH + ...
MBPP (Mostly Basic Python Problems)974basic algorithmiciyi baseline
BigCodeBench1140real-world library calls (139 lib)en realistic
LiveCodeBench400+LeetCode-style, monthly refresheddata-leak resistant
SWE-Bench-Lite300real GitHub issue → PRen zor, agentic
RepoBench27Kcode completionrepo-level
Cookbook standart eval suite: HumanEval + MBPP (sanity) + BigCodeBench + LiveCodeBench (real-world) + SWE-Bench-Lite (agentic).
Pass@k: k completion'dan en az birinin doğru olma olasılığı.
pass@1
(greedy) ve
pass@10
(temperature 0.8) cookbook default.
✅ Teslim
  1. lm-eval-harness ile HumanEval koş. 2) Pre/post FT karşılaştır. 3) Sonraki ders: 8.8 — Code-LLM Safety.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler