Long-Context Teknikleri: Sparse, Sliding, Ring, RoPE Scaling
200K-2M context'leri mümkün kılan 4 ana teknik: sparse attention, sliding window, ring attention, RoPE scaling. Hangisi hangi modelde? Her birinin trade-off'u.
Şükrü Yusuf KAYA
14 min read
AdvancedLong-Context: 4 Teknik#
Modül 1 Ders 3'te kısa değindiğimiz 'context window evrimi'ne detayda geliyoruz. 200K-2M context bedavaya gelmedi — 4 ana teknik var.
1. RoPE Scaling (YaRN, NTK, Position Interpolation)#
Problem: Bir model 4K context'te train edildi. 32K'ya extend edebilir mi?
Çözüm: RoPE pozisyonel kodlamasını "scale" et. Üç yöntem:
- PI (Position Interpolation) — pozisyonları 4× sıkıştır
- NTK-aware — yüksek frekansları az, düşük frekansları çok sıkıştır
- YaRN — NTK + attention scaling (en stable)
# Llama-3 8K → 128K (YaRN) config["rope_scaling"] = { "type": "yarn", "factor": 16.0, # 16× extend "original_max_position_embeddings": 8192, }
Trade-off: Train edilmemiş uzunluklara extend. Quality hafif düşer (long-context evals'de %5-10 fark).
2. Sliding Window Attention#
Problem: Vanilla attention O(n²) — 1M context için 10¹² hesap.
Çözüm: Her token sadece son W komşusuna dikkat. Mistral 7B'de W=4096.
Trade-off: Uzak bağıntıları kaybeder (W'den uzak iki token birbirini "görmez"). Hibrit yaklaşım: global tokens + sliding window.
3. Sparse / Hybrid Attention#
Problem: Sliding window uzak bağıntıyı kaybeder.
Çözüm: "Bazı tokenlar global, bazıları local."
LongFormer paradigması:
- İlk 4 token: global (her şeye bakar)
- Geri kalanlar: local sliding window
- Belirli "special" tokenlar: global (cls, sep)
GPT, Claude'un 200K+ context'lerinde benzer hybrid mimari olduğu tahmin ediliyor (kapalı kaynak).
4. Ring Attention (Distributed)#
Problem: 1M+ context tek GPU'ya sığmaz.
Çözüm: Context'i çoklu GPU arasında halka halinde dağıt. Attention hesabı halkayı dolaşır.
GPU 1: tokens 1-125K ↘ GPU 2: tokens 125K-250K → Ring rotation: GPU 3: tokens 250K-375K her step'te K, V matrisleri komşuya gönderilir GPU 4: tokens 375K-500K ↗ ...
Bu, Gemini 1.5'in 1M context'inin temel altyapısı. Tek GPU'ya 1M sığmazdı — distributed olması şart.
Trade-off: Multi-GPU latency, network overhead. 1M sorgu 8 GPU = 1 sorgu maliyeti ~8×.
Karşılaştırma Tablosu#
| Teknik | Memory | Compute | Quality | Tek GPU OK? | Örnek Model |
|---|---|---|---|---|---|
| Full Attention | O(n²) | O(n²) | %100 | <32K | Eski GPT |
| RoPE Scaling | O(n²) | O(n²) | %95 | <128K | Llama-3 128K |
| Sliding Window | O(n·W) | O(n·W) | %90 (uzak bağ kaybı) | Evet | Mistral, Mixtral |
| Hybrid Sparse | O(n+kn) | O(n²) yerel + O(n) global | %95-98 | <500K | Claude tahmin |
| Ring Attention | O(n/G) per GPU | O(n²) toplam | %100 | Hayır (multi-GPU) | Gemini 1M |
Kapalı Kaynak Gerçeği
Modern modeller bu teknikleri kombinasyon halinde kullanıyor. Claude muhtemelen hybrid sparse + RoPE scaling. Gemini ring + MoE. Detaylar kapalı kaynak.
RoPE Scaling Sezgisi (Math)#
RoPE'da pozisyon (m) için rotation:
(\theta_i = 10000^{-2i/d}). Train'de (m \in [0, 4096]) gördü. Eğer (m = 32768) verirsen extrapolation.
YaRN (\theta) frekanslarını ölçeklendirir; düşük frekanslar (long-range bağıntılar için) daha az dokunulur, yüksek frekanslar (local syntax) daha çok değişir.
✓ Pekiştir#
Bir Sonraki Derste#
Major LLM modellerinin uzun-context altyapısı: Claude, GPT, Gemini, Llama, MiniMax karşılaştırma.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Context Penceresi Ekonomisi
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Start Learning1. Temeller — Context Penceresi Ekonomisi
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
Start Learning1. Temeller — Context Penceresi Ekonomisi