İçeriğe geç

Long-Context Teknikleri: Sparse, Sliding, Ring, RoPE Scaling

200K-2M context'leri mümkün kılan 4 ana teknik: sparse attention, sliding window, ring attention, RoPE scaling. Hangisi hangi modelde? Her birinin trade-off'u.

Şükrü Yusuf KAYA
14 dakikalık okuma
İleri

Long-Context: 4 Teknik#

Modül 1 Ders 3'te kısa değindiğimiz 'context window evrimi'ne detayda geliyoruz. 200K-2M context bedavaya gelmedi — 4 ana teknik var.

1. RoPE Scaling (YaRN, NTK, Position Interpolation)#

Problem: Bir model 4K context'te train edildi. 32K'ya extend edebilir mi?
Çözüm: RoPE pozisyonel kodlamasını "scale" et. Üç yöntem:
  • PI (Position Interpolation) — pozisyonları 4× sıkıştır
  • NTK-aware — yüksek frekansları az, düşük frekansları çok sıkıştır
  • YaRN — NTK + attention scaling (en stable)
# Llama-3 8K → 128K (YaRN) config["rope_scaling"] = { "type": "yarn", "factor": 16.0, # 16× extend "original_max_position_embeddings": 8192, }
Trade-off: Train edilmemiş uzunluklara extend. Quality hafif düşer (long-context evals'de %5-10 fark).

2. Sliding Window Attention#

Problem: Vanilla attention O(n²) — 1M context için 10¹² hesap.
Çözüm: Her token sadece son W komşusuna dikkat. Mistral 7B'de W=4096.
Trade-off: Uzak bağıntıları kaybeder (W'den uzak iki token birbirini "görmez"). Hibrit yaklaşım: global tokens + sliding window.

3. Sparse / Hybrid Attention#

Problem: Sliding window uzak bağıntıyı kaybeder.
Çözüm: "Bazı tokenlar global, bazıları local."
LongFormer paradigması:
  • İlk 4 token: global (her şeye bakar)
  • Geri kalanlar: local sliding window
  • Belirli "special" tokenlar: global (cls, sep)
GPT, Claude'un 200K+ context'lerinde benzer hybrid mimari olduğu tahmin ediliyor (kapalı kaynak).

4. Ring Attention (Distributed)#

Problem: 1M+ context tek GPU'ya sığmaz.
Çözüm: Context'i çoklu GPU arasında halka halinde dağıt. Attention hesabı halkayı dolaşır.
GPU 1: tokens 1-125K ↘ GPU 2: tokens 125K-250K → Ring rotation: GPU 3: tokens 250K-375K her step'te K, V matrisleri komşuya gönderilir GPU 4: tokens 375K-500K ↗ ...
Bu, Gemini 1.5'in 1M context'inin temel altyapısı. Tek GPU'ya 1M sığmazdı — distributed olması şart.
Trade-off: Multi-GPU latency, network overhead. 1M sorgu 8 GPU = 1 sorgu maliyeti ~8×.

Karşılaştırma Tablosu#

TeknikMemoryComputeQualityTek GPU OK?Örnek Model
Full AttentionO(n²)O(n²)%100<32KEski GPT
RoPE ScalingO(n²)O(n²)%95<128KLlama-3 128K
Sliding WindowO(n·W)O(n·W)%90 (uzak bağ kaybı)EvetMistral, Mixtral
Hybrid SparseO(n+kn)O(n²) yerel + O(n) global%95-98<500KClaude tahmin
Ring AttentionO(n/G) per GPUO(n²) toplam%100Hayır (multi-GPU)Gemini 1M
Kapalı Kaynak Gerçeği
Modern modeller bu teknikleri kombinasyon halinde kullanıyor. Claude muhtemelen hybrid sparse + RoPE scaling. Gemini ring + MoE. Detaylar kapalı kaynak.

RoPE Scaling Sezgisi (Math)#

RoPE'da pozisyon (m) için rotation:
(\theta_i = 10000^{-2i/d}). Train'de (m \in [0, 4096]) gördü. Eğer (m = 32768) verirsen extrapolation.
YaRN (\theta) frekanslarını ölçeklendirir; düşük frekanslar (long-range bağıntılar için) daha az dokunulur, yüksek frekanslar (local syntax) daha çok değişir.

✓ Pekiştir#

Bir Sonraki Derste#

Major LLM modellerinin uzun-context altyapısı: Claude, GPT, Gemini, Llama, MiniMax karşılaştırma.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler