İçeriğe geç

Continual Pre-training TR: Catastrophic Forgetting Önleme + Replay Buffer

Continual pre-train ana risk: model TR öğrenirken İngilizce capability'sini kaybediyor. Replay buffer (her batch'te %10-15 EN örnek), LR warmup tasarımı, learning rate'in pre-train original'in 1/10-1/50'si olması gerektiği. RTX 4090 + Llama 8B + 2B token TR continual PT 24 saatte mümkün.

Şükrü Yusuf KAYA
30 dakikalık okuma
İleri
Continual Pre-training TR: Catastrophic Forgetting Önleme + Replay Buffer

1. Catastrophic Forgetting — Niye?#

LLM pre-train'i milyarlarca update step ile EN capability'yi öğrenmiş. Continual PT'de küçük TR dataset (2B token), aynı parametreleri günceller → eski EN bilgisi over-written.
Sonuç: TR-MMLU yükselir ama EN-MMLU düşer (örn. 73 → 65, -%11).
Çözümler:
  1. Replay buffer: EN data %10-15 mix
  2. LR düşürme: Pre-train original'in 1/20'si (örn. 3e-5)
  3. LoRA-style adapter: Base'i freeze, sadece adapter güncelle
  4. Elastic weight consolidation (EWC): Önemli parametreleri korumak için L2 penalty

2. Replay Buffer Recipe#

from datasets import interleave_datasets # Continual PT için mix tr_data = load_dataset("tr-cleaned-50gb", streaming=True) en_data = load_dataset("c4-en-sample", streaming=True) # 10-20GB sample mixed = interleave_datasets( [tr_data, en_data], probabilities=[0.88, 0.12], # %12 EN replay seed=42, stopping_strategy="all_exhausted", ) # Training cfg = TrainingArguments( learning_rate=3e-5, # original 3e-4'ün 1/10'u warmup_ratio=0.005, # az warmup, ısınmış model weight_decay=0.1, # original kadar lr_scheduler_type="cosine", max_steps=125_000, # 2B token / 16K batch ... )
Cookbook bench (Llama 8B + 2B token continual PT, RTX 4090 24h):
MixTR-MMLUEN-MMLUTR token verimi
Base Llama 3.1 8B32.473.03.21
100% TR, no replay39.865.2 (-7.8)2.05
88% TR + 12% EN replay39.570.8 (-2.2)2.05
LoRA-only continual36.172.5 (-0.5)2.05
✅ Teslim
  1. 100M token mini-continual PT yap, with vs without replay buffer karşılaştır. 2) TR-MMLU + EN-MMLU pre/post ölç. 3) Sonraki ders: 9.5 — TR SFT: Quality > Quantity.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler