Long-Context Teknikleri: Sparse, Sliding, Ring, RoPE Scaling

200K-2M context'leri mümkün kılan 4 ana teknik: sparse attention, sliding window, ring attention, RoPE scaling. Hangisi hangi modelde? Her birinin trade-off'u.

Şükrü Yusuf KAYA

14 min read

6/23/2026

Advanced

Long-Context: 4 Teknik#

Modül 1 Ders 3'te kısa değindiğimiz 'context window evrimi'ne detayda geliyoruz. 200K-2M context bedavaya gelmedi — 4 ana teknik var.

1. RoPE Scaling (YaRN, NTK, Position Interpolation)#

Problem: Bir model 4K context'te train edildi. 32K'ya extend edebilir mi?

Çözüm: RoPE pozisyonel kodlamasını "scale" et. Üç yöntem:

PI (Position Interpolation) — pozisyonları 4× sıkıştır
NTK-aware — yüksek frekansları az, düşük frekansları çok sıkıştır
YaRN — NTK + attention scaling (en stable)

# Llama-3 8K → 128K (YaRN)
config["rope_scaling"] = {
    "type": "yarn",
    "factor": 16.0,  # 16× extend
    "original_max_position_embeddings": 8192,
}

Trade-off: Train edilmemiş uzunluklara extend. Quality hafif düşer (long-context evals'de %5-10 fark).

2. Sliding Window Attention#

Problem: Vanilla attention O(n²) — 1M context için 10¹² hesap.

Çözüm: Her token sadece son W komşusuna dikkat. Mistral 7B'de W=4096.

Trade-off: Uzak bağıntıları kaybeder (W'den uzak iki token birbirini "görmez"). Hibrit yaklaşım: global tokens + sliding window.

3. Sparse / Hybrid Attention#

Problem: Sliding window uzak bağıntıyı kaybeder.

Çözüm: "Bazı tokenlar global, bazıları local."

LongFormer paradigması:

İlk 4 token: global (her şeye bakar)
Geri kalanlar: local sliding window
Belirli "special" tokenlar: global (cls, sep)

GPT, Claude'un 200K+ context'lerinde benzer hybrid mimari olduğu tahmin ediliyor (kapalı kaynak).

4. Ring Attention (Distributed)#

Problem: 1M+ context tek GPU'ya sığmaz.

Çözüm: Context'i çoklu GPU arasında halka halinde dağıt. Attention hesabı halkayı dolaşır.

GPU 1: tokens 1-125K     ↘
GPU 2: tokens 125K-250K   →  Ring rotation:
GPU 3: tokens 250K-375K    her step'te K, V matrisleri komşuya gönderilir
GPU 4: tokens 375K-500K   ↗
...

Bu, Gemini 1.5'in 1M context'inin temel altyapısı. Tek GPU'ya 1M sığmazdı — distributed olması şart.

Trade-off: Multi-GPU latency, network overhead. 1M sorgu 8 GPU = 1 sorgu maliyeti ~8×.

Karşılaştırma Tablosu#

Teknik	Memory	Compute	Quality	Tek GPU OK?	Örnek Model
Full Attention	O(n²)	O(n²)	%100	<32K	Eski GPT
RoPE Scaling	O(n²)	O(n²)	%95	<128K	Llama-3 128K
Sliding Window	O(n·W)	O(n·W)	%90 (uzak bağ kaybı)	Evet	Mistral, Mixtral
Hybrid Sparse	O(n+kn)	O(n²) yerel + O(n) global	%95-98	<500K	Claude tahmin
Ring Attention	O(n/G) per GPU	O(n²) toplam	%100	Hayır (multi-GPU)	Gemini 1M

Kapalı Kaynak Gerçeği

Modern modeller bu teknikleri kombinasyon halinde kullanıyor. Claude muhtemelen hybrid sparse + RoPE scaling. Gemini ring + MoE. Detaylar kapalı kaynak.

RoPE Scaling Sezgisi (Math)#

RoPE'da pozisyon (m) için rotation:

(\theta_i = 10000^{-2i/d}). Train'de (m \in [0, 4096]) gördü. Eğer (m = 32768) verirsen extrapolation.

YaRN (\theta) frekanslarını ölçeklendirir; düşük frekanslar (long-range bağıntılar için) daha az dokunulur, yüksek frekanslar (local syntax) daha çok değişir.

✓ Pekiştir#

Bir Sonraki Derste#

Major LLM modellerinin uzun-context altyapısı: Claude, GPT, Gemini, Llama, MiniMax karşılaştırma.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...