İçeriğe geç

Speculative Decoding FT: Draft Model + EAGLE-2 + MEDUSA Head Training

Speculative decoding'in FT versiyonu: draft model'i target ile pair'le, kabul oranını maksimize et. EAGLE-2 head training (Li et al. 2024, +%94 throughput), MEDUSA multi-head training, target model frozen tutarak ek head'ler eğitme. RTX 4090 + Llama 8B target + MEDUSA 4-head ~2-3 saat training.

Şükrü Yusuf KAYA
28 dakikalık okuma
İleri
Speculative Decoding FT: Draft Model + EAGLE-2 + MEDUSA Head Training

1. MEDUSA Multi-Head Training#

Target model: Llama 3.1 8B (frozen) Add N extra lm_head'ler: head_1: predict token at t+1 (normal) head_2: predict token at t+2 (one step ahead) head_3: predict token at t+3 head_4: predict token at t+4 Training: target model frozen, sadece head'leri train et - SFT data üzerinde (Llama-Instruct dataset) - Loss = sum(CE(head_i(h_t), token_t+i)) Inference: - Target forward 1 kez → 4 candidate token - Target verify: kabul ettiği token'lara devam et - Accept rate ~%60-75 (typical) - Speedup: ~2-3×
Cookbook Lab: Llama 3.1 8B + MEDUSA 4-head training = ~2-3 saat 4090, dataset 50K SFT example.
✅ Part XIII tamamlandı
  1. Mini MEDUSA head training Lab. 2) vLLM ile spec-decoding throughput karşılaştır. 3) Sonraki Part: Part XIV — Closed-Source API Fine-Tuning.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler