İçeriğe geç

Hybrid SSM Modelleri: Falcon-Mamba + Zamba2 — KV-Cache Olmadan Long Context

State Space Model (SSM, Mamba) — Transformer'a alternatif mimari. KV-cache yok, inference complexity O(N) (Transformer O(N²)). Falcon-Mamba 7B, Zamba2 (Mamba + transformer hibrit). FT pattern Transformer'dan farklı: state'ler reset, gradient flow, learning rate hassaslığı. RTX 4090'da reçete.

Şükrü Yusuf KAYA
26 dakikalık okuma
İleri
Hybrid SSM Modelleri: Falcon-Mamba + Zamba2 — KV-Cache Olmadan Long Context

1. SSM vs Transformer#

AspectTransformerSSM (Mamba)Hybrid (Zamba2)
Inference complexityO(N²)O(N)O(N²) for attn layers, O(N) for SSM
KV-cachebüyükyoksadece attn layers
Long context (1M)büyük memorydüşük memoryorta
Training stabilityiyihassas (selective scan kernel)iyi
Open ecosystembüyükortayeni
Mamba'nın katkısı: Selective scan — input-dependent state transition. Bu sayede modeling capacity Transformer'a yaklaşır.
Falcon-Mamba 7B (TII, 2024): Pure Mamba, 5.5T token pre-train. Long context (256K) hızlı. Zamba2 (Zyphra, 2024): Mamba + interspersed attention layers. Both worlds.
python
# === Falcon-Mamba 7B FT ===
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model
 
model = AutoModelForCausalLM.from_pretrained(
"tiiuae/falcon-mamba-7b",
torch_dtype="bfloat16",
device_map="cuda",
# SSM'lerin Mamba-spesifik kernel'ları var — flash-attn yerine selective_scan
)
tok = AutoTokenizer.from_pretrained("tiiuae/falcon-mamba-7b")
 
# LoRA — SSM layer target
lora = LoraConfig(
r=32, lora_alpha=64, lora_dropout=0.05,
target_modules=["in_proj", "x_proj", "dt_proj", "out_proj"], # Mamba layer adları
task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora)
 
# Training — lr daha düşük (Mamba hassas)
cfg = SFTConfig(
output_dir="falcon-mamba-7b-tr",
learning_rate=5e-5, # Transformer'daki 2e-4'ün 1/4'ü
warmup_ratio=0.1, # Mamba'da uzun warmup
bf16=True, optim="paged_adamw_8bit",
max_seq_length=8192, # long-context advantage
...
)
Falcon-Mamba 7B FT — Mamba-spesifik hyperparam
✅ Teslim
  1. Falcon-Mamba 7B ile mini SFT. 2) Aynı dataset Transformer 7B ile karşılaştır. 3) Sonraki ders: 4.11 — Multi-node Run + Fault-Tolerant Training.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler