1M context'te lost-in-middle daha mı ciddi?

Evet, belirgin. 200K'da %10 drop, 1M'da %20-30. Gemini 1M sorguları için 'needle-in-haystack' benchmarkları çoğunlukla %85-90 — yine de %10 hata büyük problem.

Lost in the Middle: Pozisyon Bias'ı ve Sonuçları

Name: Lost in the Middle: Pozisyon Bias'ı ve Sonuçları
Author: Şükrü Yusuf KAYA

LLM'ler context'in başını ve sonunu daha iyi hatırlıyor — orta kısmı sıklıkla 'kayboluyor'. Bu derste 2023'teki Stanford araştırmasını, sonraki benchmarkları ve pratik öneriler.

Şükrü Yusuf KAYA

13 min read

5/14/2026

Intermediate

Lost in the Middle: Pozisyon Bias'ı

Stanford'dan Nelson Liu ve ekibi 2023'te şaşırtıcı bir bulgu yayınladı:

"LLM'ler context'lerinin başında ve sonunda olan bilgileri çok iyi kullanıyor; ama ortasında olan bilgileri sıklıkla atlıyor."

Bu fenomene "Lost in the Middle" dediler. Yayın: arXiv:2307.03172.

Bu, context engineering'in en pratik bulgularından biri.

Deney Düzeneği#

Liu et al. şu testi yaptı:

Bir soru hazırla (örn. "Hangi şirket 2008'de kuruldu?")
Soruyu cevaplayan bilgiyi 10 doc'tan birine koy
Doc'ları farklı pozisyonlara yerleştir
LLM'e sor: cevabı bulabilir mi?

Sonuç (GPT-3.5, 10 doc'ta 1 doğru):

Doğru cevap pozisyonu	Accuracy
1. doc (başta)	%75
2. doc	%62
3. doc	%55
4. doc	%48
5. doc	%42 (en düşük)
6. doc	%46
7. doc	%51
8. doc	%58
9. doc	%63
10. doc (sonda)	%72

Grafik haline getirirsen U şeklinde bir eğri çıkıyor — başta ve sonda yüksek, ortada düşük.

Neden Böyle?#

Üç hipotez:

Attention training bias — modeller eğitim sırasında daha çok başlangıç + son tokenlara dikkat etmiş
Position encoding — RoPE gibi pozisyonel kodlamalar uzun mesafelerde zayıflıyor
U-shaped attention pattern — empirik olarak attention head'lerin çoğu U pattern'i öğreniyor

Modern Modellerde Hâlâ Geçerli Mi?#

Evet, ama daha az ciddi. 2024-2026 modellerinde:

Model	Lost-in-middle ciddiyeti	Notlar
GPT-3.5 (2023)	Yüksek (~30% drop)	Orijinal araştırma
GPT-4o (2024)	Orta (~15% drop)	Belirgin iyileşme
Claude 3 Opus (2024)	Düşük (~10% drop)	Constitutional AI etkisi olabilir
Claude Sonnet 4.6 (2026)	Düşük (~5-8% drop)	Modern, küçük ama gerçek
Gemini 2.5 Pro (2026)	Çok düşük (1M) ama 1M üzerinde artar	Ring attention etkisi

Bulgu: Fenomen küçüldü ama yok olmadı. Hâlâ tasarımı etkilemeli.

Pratik Sonuçları#

Sonuç 1: Önemli Bilgiyi Başta veya Sonda Koy#

# ❌ KÖTÜ — kritik talimat ortada
context = f"""
[10K token doc 1]
[10K token doc 2]
[10K token doc 3]

ÖNEMLİ: Yanıtı maksimum 100 kelimede ver.   ← ortada, kaybolabilir

[10K token doc 4]
[10K token doc 5]
"""

# ✅ İYİ — kritik talimat başta veya sonda
context = f"""
ÖNEMLİ: Yanıtı maksimum 100 kelimede ver.   ← başta

[doc 1] [doc 2] [doc 3] [doc 4] [doc 5]

Tekrar hatırlat: maksimum 100 kelime.        ← sonda
"""

Sonuç 2: RAG'da Doc Sıralaması#

10 doc retrieve ettin. Hangisini önce koymalısın?

Geleneksel: En alakalı (score'a göre) en başta.

Lost-in-middle'a göre öneri: En alakalı başta, ikinci en alakalı sonda, orta sıradakiler ortada. Bu "U-arrangement".

Sonuç 3: Sistem Tahmin Edilemezlik Sınırını Anla#

Eğer context 200K ve bilginin 100K pozisyonunda kritik bir detay varsa, %5-15 ihtimalle model atlayabilir. Bu, mission-critical (hukuk, sağlık, finans) sistemlerde unutulmaması gereken risk.

Risk Yönetimi

Mission-critical use case'lerde uzun context'e tek başına güvenme. Önemli bilgiyi tekrar et — başta + sonda. RAG ile yedekle.

Bir Sonraki Test: Needle-in-Haystack#

Çok daha agresif bir test: 100K token text içinde tek bir bilgi sakla. "Pasta tarifim Trabzon'da":

[99.999 token random Wikipedia]
"Şükrü'nün gizli pasta tarifi Trabzon'dadır."   ← needle, herhangi pozisyon
[başka random]

Soru: "Şükrü'nün gizli pasta tarifi nerededir?"

Modern modeller (Claude Sonnet 4.6, GPT-4o) genelde %95+ buluyor. Ama pozisyona göre %5-10 fark var. Ders 34'te bunun lab'ini yapacağız.

✓ Pekiştir#

Bir Sonraki Derste#

Attention sinks — context'in ilk birkaç tokenının gizli rolü. StreamingLLM araştırması ne ortaya çıkardı?

Frequently Asked Questions

Yeterli benchmark yok ama hipotez: evet, biraz. Türkçe tokenizer eklemeli dil yapısından dolayı token sayısı yüksek; aynı semantik bilgi daha geniş pozisyona yayılır. Pratik sonuç: kritik bilgiyi tekrar etmek Türkçe'de daha kritik.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...