Skip to content

Context Rot: Tokenlar Arttıkça Reasoning Neden Bozulur?

200K context'te needle bulunur, ama 'reasoning over context' sorularında accuracy düşer. Bu derste 'context rot'un anatomisini, RULER ve LongBench benchmark'larını öğreneceksin.

Şükrü Yusuf KAYA
13 min read
Intermediate

Context Rot: "Daha Uzun ≠ Daha İyi"

Önemli bir bulgu: needle-in-haystack benchmark'lar yanıltıcı.
Bir model 1M context'te needle bulabilir (%95) ama aynı context'te reasoning (örn. "doc 1 ve doc 5'i karşılaştırarak çıkarım yap") yapamayabilir (%40-50).
Bu fenomen "context rot" veya "deep reasoning degradation" olarak biliniyor.

RULER Benchmark — Daha Gerçekçi Test#

NVIDIA'nın 2024'te yayınladığı RULER benchmark'ı, NIAH'nin ötesine geçer:
Task kategorileri:
  1. Single needle retrieval — NIAH klasik
  2. Multi-key needle — birden çok bilgi, ilişkilendirme yok
  3. Multi-value needle — bir key'in birden çok değeri
  4. Multi-hop tracing — A → B → C → D zinciri takibi
  5. Aggregation — context'teki tüm X'leri say
  6. QA — uzun context'ten Q&A
Bulgu: Reasoning task'ları için accuracy çok daha düşük.

RULER Skorları (yaklaşık, Mart 2026)#

ModelNIAH @ 128KRULER (avg) @ 128K
Claude Sonnet 4.6%98%85
GPT-4o%96%82
Gemini 2.5 Pro%96%80
Llama 3.1 70B%85%65
Gözlem: Tüm modeller %10-20 puan düşüş gösteriyor reasoning task'larında.

Neden Reasoning Bozulur?#

3 hipotez:

1. Attention Diffusion#

Çok token = attention "yayılıyor". Model "buraya yoğunlaş" yapamıyor; her şeye az dikkat verip karar veriyor.

2. Pozisyon Bias Birikimi#

"Lost in the middle" sadece needle için değil, reasoning chain'leri için de. A → B → C zincirinde herhangi bir adım ortada kalırsa, model atlayabiliyor.

3. Context Confusion#

İki benzer bilgi (semantic dedup yapılmamış) → model "hangisi doğru?" tereddüdü. Multi-doc reasoning'de bu çok yaygın.

Pratik Sonuçları#

Sonuç 1: Benchmark'ları Skeptik Oku#

Bir model "200K context'te %98 NIAH" diyor mu? Sor: RULER skoru ne? Eğer paylaşmıyorsa şüpheli.

Sonuç 2: Context'i Kısaltabilirsen Kısalt#

50K'da %95 reasoning accuracy mı, yoksa 200K'da %75 mi? Eğer RAG ile gereksiz doc'ları çıkarabilirsen 50K'a in. Daha az = daha doğru.

Sonuç 3: Reasoning-Heavy Tasks İçin Chunk#

❌ 1 sorgu: 200K context, "Tüm doc'ları analiz et + 5 ana tema çıkar" ✅ Chunked yaklaşım: - Sorgu 1: doc 1-10 → tema listesi - Sorgu 2: doc 11-20 → tema listesi - Sorgu 3: tema listelerini birleştir → final tema
Her sorgu daha az context = daha doğru reasoning.
Production Best Practice
Mission-critical reasoning (hukuk, sağlık, finans): Uzun context'e tek başına güvenme. Multi-step, multi-sorgu yaklaşımı kullan. RAG + reasoning chain genelde daha doğru.

Caching ile Etkileşim#

Context rot, caching'i etkilemez (cache lossless). Ama kullanım kararları etkilenmeli:
  • 1M context cache'le ama her sorguda farklı reasoning yapıyorsan, sonuçlar tutarsız olabilir
  • Cost düşük olsa da accuracy stable mi, ölç
  • Modül 11'de "quality monitoring" stratejilerini göreceğiz

✓ Pekiştir#

Bir Sonraki Derste#

Kendi context rot benchmark'ını çalıştır — 10K vs 50K vs 200K accuracy karşılaştırması.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content