Hybrid SSM Modelleri: Falcon-Mamba + Zamba2 — KV-Cache Olmadan Long Context
State Space Model (SSM, Mamba) — Transformer'a alternatif mimari. KV-cache yok, inference complexity O(N) (Transformer O(N²)). Falcon-Mamba 7B, Zamba2 (Mamba + transformer hibrit). FT pattern Transformer'dan farklı: state'ler reset, gradient flow, learning rate hassaslığı. RTX 4090'da reçete.
Şükrü Yusuf KAYA
26 dakikalık okuma
İleri1. SSM vs Transformer#
| Aspect | Transformer | SSM (Mamba) | Hybrid (Zamba2) |
|---|---|---|---|
| Inference complexity | O(N²) | O(N) | O(N²) for attn layers, O(N) for SSM |
| KV-cache | büyük | yok | sadece attn layers |
| Long context (1M) | büyük memory | düşük memory | orta |
| Training stability | iyi | hassas (selective scan kernel) | iyi |
| Open ecosystem | büyük | orta | yeni |
Mamba'nın katkısı: Selective scan — input-dependent state transition. Bu sayede modeling capacity Transformer'a yaklaşır.
Falcon-Mamba 7B (TII, 2024): Pure Mamba, 5.5T token pre-train. Long context (256K) hızlı.
Zamba2 (Zyphra, 2024): Mamba + interspersed attention layers. Both worlds.
python
# === Falcon-Mamba 7B FT ===from transformers import AutoModelForCausalLM, AutoTokenizerfrom peft import LoraConfig, get_peft_model model = AutoModelForCausalLM.from_pretrained( "tiiuae/falcon-mamba-7b", torch_dtype="bfloat16", device_map="cuda", # SSM'lerin Mamba-spesifik kernel'ları var — flash-attn yerine selective_scan)tok = AutoTokenizer.from_pretrained("tiiuae/falcon-mamba-7b") # LoRA — SSM layer targetlora = LoraConfig( r=32, lora_alpha=64, lora_dropout=0.05, target_modules=["in_proj", "x_proj", "dt_proj", "out_proj"], # Mamba layer adları task_type="CAUSAL_LM",)model = get_peft_model(model, lora) # Training — lr daha düşük (Mamba hassas)cfg = SFTConfig( output_dir="falcon-mamba-7b-tr", learning_rate=5e-5, # Transformer'daki 2e-4'ün 1/4'ü warmup_ratio=0.1, # Mamba'da uzun warmup bf16=True, optim="paged_adamw_8bit", max_seq_length=8192, # long-context advantage ...)Falcon-Mamba 7B FT — Mamba-spesifik hyperparam
✅ Teslim
- Falcon-Mamba 7B ile mini SFT. 2) Aynı dataset Transformer 7B ile karşılaştır. 3) Sonraki ders: 4.11 — Multi-node Run + Fault-Tolerant Training.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations