Hybrid SSM Modelleri: Falcon-Mamba + Zamba2 — KV-Cache Olmadan Long Context

State Space Model (SSM, Mamba) — Transformer'a alternatif mimari. KV-cache yok, inference complexity O(N) (Transformer O(N²)). Falcon-Mamba 7B, Zamba2 (Mamba + transformer hibrit). FT pattern Transformer'dan farklı: state'ler reset, gradient flow, learning rate hassaslığı. RTX 4090'da reçete.

Şükrü Yusuf KAYA

26 dakikalık okuma

14.05.2026

İleri

Hybrid SSM Modelleri: Falcon-Mamba + Zamba2 — KV-Cache Olmadan Long Context

1. SSM vs Transformer#

Aspect	Transformer	SSM (Mamba)	Hybrid (Zamba2)
Inference complexity	O(N²)	O(N)	O(N²) for attn layers, O(N) for SSM
KV-cache	büyük	yok	sadece attn layers
Long context (1M)	büyük memory	düşük memory	orta
Training stability	iyi	hassas (selective scan kernel)	iyi
Open ecosystem	büyük	orta	yeni

Mamba'nın katkısı: Selective scan — input-dependent state transition. Bu sayede modeling capacity Transformer'a yaklaşır.

Falcon-Mamba 7B (TII, 2024): Pure Mamba, 5.5T token pre-train. Long context (256K) hızlı. Zamba2 (Zyphra, 2024): Mamba + interspersed attention layers. Both worlds.

python

# === Falcon-Mamba 7B FT ===
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model
 
model = AutoModelForCausalLM.from_pretrained(
    "tiiuae/falcon-mamba-7b",
    torch_dtype="bfloat16",
    device_map="cuda",
    # SSM'lerin Mamba-spesifik kernel'ları var — flash-attn yerine selective_scan
)
tok = AutoTokenizer.from_pretrained("tiiuae/falcon-mamba-7b")
 
# LoRA — SSM layer target
lora = LoraConfig(
    r=32, lora_alpha=64, lora_dropout=0.05,
    target_modules=["in_proj", "x_proj", "dt_proj", "out_proj"],   # Mamba layer adları
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora)
 
# Training — lr daha düşük (Mamba hassas)
cfg = SFTConfig(
    output_dir="falcon-mamba-7b-tr",
    learning_rate=5e-5,                       # Transformer'daki 2e-4'ün 1/4'ü
    warmup_ratio=0.1,                          # Mamba'da uzun warmup
    bf16=True, optim="paged_adamw_8bit",
    max_seq_length=8192,                       # long-context advantage
    ...
)

Falcon-Mamba 7B FT — Mamba-spesifik hyperparam

✅ Teslim

Falcon-Mamba 7B ile mini SFT. 2) Aynı dataset Transformer 7B ile karşılaştır. 3) Sonraki ders: 4.11 — Multi-node Run + Fault-Tolerant Training.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Part 0 — Engineering Foundations

Hybrid SSM Modelleri: Falcon-Mamba + Zamba2 — KV-Cache Olmadan Long Context

1. SSM vs Transformer#

Yorumlar & Soru-Cevap

İlgili İçerikler

Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı

Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir

Environment Pinning: uv + pyproject.toml, CUDA Version Matrix ve Container Reçeteleri

Bültenime Abone Olun