İçeriğe geç

DeepSeek-Coder-V2 16B / 236B: MoE Code Model + Multi-File Context

DeepSeek-Coder-V2 (DeepSeek 2024) — MoE arch (16B / 236B), Apache 2.0 lisansla en güçlü açık code LLM'lerden. 338 programming language, 128K context, multi-file repo understanding. RTX 4090'da 16B (2.4B active) QLoRA mümkün; 236B cloud only.

Şükrü Yusuf KAYA
24 dakikalık okuma
İleri
DeepSeek-Coder-V2 16B / 236B: MoE Code Model + Multi-File Context

1. DeepSeek-Coder-V2 Specs#

ModelTotalActiveContextHumanEvalLisans
DeepSeek-Coder-V2-Lite 16B16B2.4B128K90.2%Apache 2.0
DeepSeek-Coder-V2 236B236B21B128K96.3%Apache 2.0
DeepSeek-Coder-V2-Lite-Instruct16B2.4B128K92.1%Apache 2.0
Lite 16B'in avantajı: Active param 2.4B → 7B-class compute, 16B-class kalite. RTX 4090'da rahat QLoRA.
✅ Teslim
  1. DeepSeek-Coder-V2-Lite 16B'yi RTX 4090'da load et. 2) HumanEval bench. 3) Sonraki ders: 8.4 — StarCoder 2 + CodeLlama.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler