Context Rot: Tokenlar Arttıkça Reasoning Neden Bozulur?

Name: Context Rot: Tokenlar Arttıkça Reasoning Neden Bozulur?
Author: Şükrü Yusuf KAYA

200K context'te needle bulunur, ama 'reasoning over context' sorularında accuracy düşer. Bu derste 'context rot'un anatomisini, RULER ve LongBench benchmark'larını öğreneceksin.

Şükrü Yusuf KAYA

13 min read

5/14/2026

Intermediate

Context Rot: "Daha Uzun ≠ Daha İyi"

Önemli bir bulgu: needle-in-haystack benchmark'lar yanıltıcı.

Bir model 1M context'te needle bulabilir (%95) ama aynı context'te reasoning (örn. "doc 1 ve doc 5'i karşılaştırarak çıkarım yap") yapamayabilir (%40-50).

Bu fenomen "context rot" veya "deep reasoning degradation" olarak biliniyor.

RULER Benchmark — Daha Gerçekçi Test#

NVIDIA'nın 2024'te yayınladığı RULER benchmark'ı, NIAH'nin ötesine geçer:

Task kategorileri:

Single needle retrieval — NIAH klasik
Multi-key needle — birden çok bilgi, ilişkilendirme yok
Multi-value needle — bir key'in birden çok değeri
Multi-hop tracing — A → B → C → D zinciri takibi
Aggregation — context'teki tüm X'leri say
QA — uzun context'ten Q&A

Bulgu: Reasoning task'ları için accuracy çok daha düşük.

RULER Skorları (yaklaşık, Mart 2026)#

Model	NIAH @ 128K	RULER (avg) @ 128K
Claude Sonnet 4.6	%98	%85
GPT-4o	%96	%82
Gemini 2.5 Pro	%96	%80
Llama 3.1 70B	%85	%65

Gözlem: Tüm modeller %10-20 puan düşüş gösteriyor reasoning task'larında.

Neden Reasoning Bozulur?#

3 hipotez:

1. Attention Diffusion#

Çok token = attention "yayılıyor". Model "buraya yoğunlaş" yapamıyor; her şeye az dikkat verip karar veriyor.

2. Pozisyon Bias Birikimi#

"Lost in the middle" sadece needle için değil, reasoning chain'leri için de. A → B → C zincirinde herhangi bir adım ortada kalırsa, model atlayabiliyor.

3. Context Confusion#

İki benzer bilgi (semantic dedup yapılmamış) → model "hangisi doğru?" tereddüdü. Multi-doc reasoning'de bu çok yaygın.

Pratik Sonuçları#

Sonuç 1: Benchmark'ları Skeptik Oku#

Bir model "200K context'te %98 NIAH" diyor mu? Sor: RULER skoru ne? Eğer paylaşmıyorsa şüpheli.

Sonuç 2: Context'i Kısaltabilirsen Kısalt#

50K'da %95 reasoning accuracy mı, yoksa 200K'da %75 mi? Eğer RAG ile gereksiz doc'ları çıkarabilirsen 50K'a in. Daha az = daha doğru.

Sonuç 3: Reasoning-Heavy Tasks İçin Chunk#

❌ 1 sorgu: 200K context, "Tüm doc'ları analiz et + 5 ana tema çıkar"

✅ Chunked yaklaşım:
   - Sorgu 1: doc 1-10 → tema listesi
   - Sorgu 2: doc 11-20 → tema listesi
   - Sorgu 3: tema listelerini birleştir → final tema

Her sorgu daha az context = daha doğru reasoning.

Production Best Practice

Mission-critical reasoning (hukuk, sağlık, finans): Uzun context'e tek başına güvenme. Multi-step, multi-sorgu yaklaşımı kullan. RAG + reasoning chain genelde daha doğru.

Caching ile Etkileşim#

Context rot, caching'i etkilemez (cache lossless). Ama kullanım kararları etkilenmeli:

1M context cache'le ama her sorguda farklı reasoning yapıyorsan, sonuçlar tutarsız olabilir
Cost düşük olsa da accuracy stable mi, ölç
Modül 11'de "quality monitoring" stratejilerini göreceğiz

✓ Pekiştir#

Bir Sonraki Derste#

Kendi context rot benchmark'ını çalıştır — 10K vs 50K vs 200K accuracy karşılaştırması.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...