DeepSeek-Coder-V2 16B / 236B: MoE Code Model + Multi-File Context

DeepSeek-Coder-V2 (DeepSeek 2024) — MoE arch (16B / 236B), Apache 2.0 lisansla en güçlü açık code LLM'lerden. 338 programming language, 128K context, multi-file repo understanding. RTX 4090'da 16B (2.4B active) QLoRA mümkün; 236B cloud only.

Şükrü Yusuf KAYA

24 dakikalık okuma

14.05.2026

İleri

DeepSeek-Coder-V2 16B / 236B: MoE Code Model + Multi-File Context

1. DeepSeek-Coder-V2 Specs#

Model	Total	Active	Context	HumanEval	Lisans
DeepSeek-Coder-V2-Lite 16B	16B	2.4B	128K	90.2%	Apache 2.0
DeepSeek-Coder-V2 236B	236B	21B	128K	96.3%	Apache 2.0
DeepSeek-Coder-V2-Lite-Instruct	16B	2.4B	128K	92.1%	Apache 2.0

Lite 16B'in avantajı: Active param 2.4B → 7B-class compute, 16B-class kalite. RTX 4090'da rahat QLoRA.

✅ Teslim

DeepSeek-Coder-V2-Lite 16B'yi RTX 4090'da load et. 2) HumanEval bench. 3) Sonraki ders: 8.4 — StarCoder 2 + CodeLlama.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Part 0 — Engineering Foundations

Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı

Öğrenmeye Başla

Part 0 — Engineering Foundations

Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir

Öğrenmeye Başla

Part 0 — Engineering Foundations

Environment Pinning: uv + pyproject.toml, CUDA Version Matrix ve Container Reçeteleri

Öğrenmeye Başla