Continual Pre-training TR: Catastrophic Forgetting Önleme + Replay Buffer

Continual pre-train ana risk: model TR öğrenirken İngilizce capability'sini kaybediyor. Replay buffer (her batch'te %10-15 EN örnek), LR warmup tasarımı, learning rate'in pre-train original'in 1/10-1/50'si olması gerektiği. RTX 4090 + Llama 8B + 2B token TR continual PT 24 saatte mümkün.

Şükrü Yusuf KAYA

30 dakikalık okuma

27.06.2026

İleri

Continual Pre-training TR: Catastrophic Forgetting Önleme + Replay Buffer

1. Catastrophic Forgetting — Niye?#

LLM pre-train'i milyarlarca update step ile EN capability'yi öğrenmiş. Continual PT'de küçük TR dataset (2B token), aynı parametreleri günceller → eski EN bilgisi over-written.

Sonuç: TR-MMLU yükselir ama EN-MMLU düşer (örn. 73 → 65, -%11).

Çözümler:

Replay buffer: EN data %10-15 mix
LR düşürme: Pre-train original'in 1/20'si (örn. 3e-5)
LoRA-style adapter: Base'i freeze, sadece adapter güncelle
Elastic weight consolidation (EWC): Önemli parametreleri korumak için L2 penalty

2. Replay Buffer Recipe#

from datasets import interleave_datasets

# Continual PT için mix
tr_data = load_dataset("tr-cleaned-50gb", streaming=True)
en_data = load_dataset("c4-en-sample", streaming=True)     # 10-20GB sample

mixed = interleave_datasets(
    [tr_data, en_data],
    probabilities=[0.88, 0.12],         # %12 EN replay
    seed=42,
    stopping_strategy="all_exhausted",
)

# Training
cfg = TrainingArguments(
    learning_rate=3e-5,                  # original 3e-4'ün 1/10'u
    warmup_ratio=0.005,                  # az warmup, ısınmış model
    weight_decay=0.1,                    # original kadar
    lr_scheduler_type="cosine",
    max_steps=125_000,                   # 2B token / 16K batch
    ...
)

Cookbook bench (Llama 8B + 2B token continual PT, RTX 4090 24h):

Mix	TR-MMLU	EN-MMLU	TR token verimi
Base Llama 3.1 8B	32.4	73.0	3.21
100% TR, no replay	39.8	65.2 (-7.8)	2.05
88% TR + 12% EN replay	39.5	70.8 (-2.2)	2.05
LoRA-only continual	36.1	72.5 (-0.5)	2.05

✅ Teslim

100M token mini-continual PT yap, with vs without replay buffer karşılaştır. 2) TR-MMLU + EN-MMLU pre/post ölç. 3) Sonraki ders: 9.5 — TR SFT: Quality > Quantity.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Part 0 — Engineering Foundations

Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı

Öğrenmeye Başla

Part 0 — Engineering Foundations

Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir

Öğrenmeye Başla

Part 0 — Engineering Foundations

Environment Pinning: uv + pyproject.toml, CUDA Version Matrix ve Container Reçeteleri

Öğrenmeye Başla