Continual Pre-training TR: Catastrophic Forgetting Önleme + Replay Buffer
Continual pre-train ana risk: model TR öğrenirken İngilizce capability'sini kaybediyor. Replay buffer (her batch'te %10-15 EN örnek), LR warmup tasarımı, learning rate'in pre-train original'in 1/10-1/50'si olması gerektiği. RTX 4090 + Llama 8B + 2B token TR continual PT 24 saatte mümkün.
Şükrü Yusuf KAYA
30 dakikalık okuma
İleri1. Catastrophic Forgetting — Niye?#
LLM pre-train'i milyarlarca update step ile EN capability'yi öğrenmiş.
Continual PT'de küçük TR dataset (2B token), aynı parametreleri günceller →
eski EN bilgisi over-written.
Sonuç: TR-MMLU yükselir ama EN-MMLU düşer (örn. 73 → 65, -%11).
Çözümler:
- Replay buffer: EN data %10-15 mix
- LR düşürme: Pre-train original'in 1/20'si (örn. 3e-5)
- LoRA-style adapter: Base'i freeze, sadece adapter güncelle
- Elastic weight consolidation (EWC): Önemli parametreleri korumak için L2 penalty
2. Replay Buffer Recipe#
from datasets import interleave_datasets # Continual PT için mix tr_data = load_dataset("tr-cleaned-50gb", streaming=True) en_data = load_dataset("c4-en-sample", streaming=True) # 10-20GB sample mixed = interleave_datasets( [tr_data, en_data], probabilities=[0.88, 0.12], # %12 EN replay seed=42, stopping_strategy="all_exhausted", ) # Training cfg = TrainingArguments( learning_rate=3e-5, # original 3e-4'ün 1/10'u warmup_ratio=0.005, # az warmup, ısınmış model weight_decay=0.1, # original kadar lr_scheduler_type="cosine", max_steps=125_000, # 2B token / 16K batch ... )
Cookbook bench (Llama 8B + 2B token continual PT, RTX 4090 24h):
| Mix | TR-MMLU | EN-MMLU | TR token verimi |
|---|---|---|---|
| Base Llama 3.1 8B | 32.4 | 73.0 | 3.21 |
| 100% TR, no replay | 39.8 | 65.2 (-7.8) | 2.05 |
| 88% TR + 12% EN replay | 39.5 | 70.8 (-2.2) | 2.05 |
| LoRA-only continual | 36.1 | 72.5 (-0.5) | 2.05 |
✅ Teslim
- 100M token mini-continual PT yap, with vs without replay buffer karşılaştır. 2) TR-MMLU + EN-MMLU pre/post ölç. 3) Sonraki ders: 9.5 — TR SFT: Quality > Quantity.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations