Speculative Decoding FT: Draft Model + EAGLE-2 + MEDUSA Head Training

Speculative decoding'in FT versiyonu: draft model'i target ile pair'le, kabul oranını maksimize et. EAGLE-2 head training (Li et al. 2024, +%94 throughput), MEDUSA multi-head training, target model frozen tutarak ek head'ler eğitme. RTX 4090 + Llama 8B target + MEDUSA 4-head ~2-3 saat training.

Şükrü Yusuf KAYA

28 dakikalık okuma

14.05.2026

İleri

Speculative Decoding FT: Draft Model + EAGLE-2 + MEDUSA Head Training

1. MEDUSA Multi-Head Training#

Target model: Llama 3.1 8B (frozen)
Add N extra lm_head'ler:
  head_1: predict token at t+1 (normal)
  head_2: predict token at t+2 (one step ahead)
  head_3: predict token at t+3
  head_4: predict token at t+4

Training: target model frozen, sadece head'leri train et
  - SFT data üzerinde (Llama-Instruct dataset)
  - Loss = sum(CE(head_i(h_t), token_t+i))

Inference:
  - Target forward 1 kez → 4 candidate token
  - Target verify: kabul ettiği token'lara devam et
  - Accept rate ~%60-75 (typical)
  - Speedup: ~2-3×

Cookbook Lab: Llama 3.1 8B + MEDUSA 4-head training = ~2-3 saat 4090, dataset 50K SFT example.

✅ Part XIII tamamlandı