DeepSeek-Coder-V2 16B / 236B: MoE Code Model + Multi-File Context
DeepSeek-Coder-V2 (DeepSeek 2024) — MoE arch (16B / 236B), Apache 2.0 lisansla en güçlü açık code LLM'lerden. 338 programming language, 128K context, multi-file repo understanding. RTX 4090'da 16B (2.4B active) QLoRA mümkün; 236B cloud only.
Şükrü Yusuf KAYA
24 dakikalık okuma
İleri1. DeepSeek-Coder-V2 Specs#
| Model | Total | Active | Context | HumanEval | Lisans |
|---|---|---|---|---|---|
| DeepSeek-Coder-V2-Lite 16B | 16B | 2.4B | 128K | 90.2% | Apache 2.0 |
| DeepSeek-Coder-V2 236B | 236B | 21B | 128K | 96.3% | Apache 2.0 |
| DeepSeek-Coder-V2-Lite-Instruct | 16B | 2.4B | 128K | 92.1% | Apache 2.0 |
Lite 16B'in avantajı: Active param 2.4B → 7B-class compute, 16B-class kalite. RTX 4090'da rahat QLoRA.
✅ Teslim
- DeepSeek-Coder-V2-Lite 16B'yi RTX 4090'da load et. 2) HumanEval bench. 3) Sonraki ders: 8.4 — StarCoder 2 + CodeLlama.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations