Lost in the Middle: Pozisyon Bias'ı ve Sonuçları
LLM'ler context'in başını ve sonunu daha iyi hatırlıyor — orta kısmı sıklıkla 'kayboluyor'. Bu derste 2023'teki Stanford araştırmasını, sonraki benchmarkları ve pratik öneriler.
Şükrü Yusuf KAYA
13 min read
IntermediateLost in the Middle: Pozisyon Bias'ı
Stanford'dan Nelson Liu ve ekibi 2023'te şaşırtıcı bir bulgu yayınladı:
"LLM'ler context'lerinin başında ve sonunda olan bilgileri çok iyi kullanıyor; ama ortasında olan bilgileri sıklıkla atlıyor."
Bu fenomene "Lost in the Middle" dediler. Yayın: arXiv:2307.03172.
Bu, context engineering'in en pratik bulgularından biri.
Deney Düzeneği#
Liu et al. şu testi yaptı:
- Bir soru hazırla (örn. "Hangi şirket 2008'de kuruldu?")
- Soruyu cevaplayan bilgiyi 10 doc'tan birine koy
- Doc'ları farklı pozisyonlara yerleştir
- LLM'e sor: cevabı bulabilir mi?
Sonuç (GPT-3.5, 10 doc'ta 1 doğru):
| Doğru cevap pozisyonu | Accuracy |
|---|---|
| 1. doc (başta) | %75 |
| 2. doc | %62 |
| 3. doc | %55 |
| 4. doc | %48 |
| 5. doc | %42 (en düşük) |
| 6. doc | %46 |
| 7. doc | %51 |
| 8. doc | %58 |
| 9. doc | %63 |
| 10. doc (sonda) | %72 |
Grafik haline getirirsen U şeklinde bir eğri çıkıyor — başta ve sonda yüksek, ortada düşük.
Neden Böyle?#
Üç hipotez:
- Attention training bias — modeller eğitim sırasında daha çok başlangıç + son tokenlara dikkat etmiş
- Position encoding — RoPE gibi pozisyonel kodlamalar uzun mesafelerde zayıflıyor
- U-shaped attention pattern — empirik olarak attention head'lerin çoğu U pattern'i öğreniyor
Modern Modellerde Hâlâ Geçerli Mi?#
Evet, ama daha az ciddi. 2024-2026 modellerinde:
| Model | Lost-in-middle ciddiyeti | Notlar |
|---|---|---|
| GPT-3.5 (2023) | Yüksek (~30% drop) | Orijinal araştırma |
| GPT-4o (2024) | Orta (~15% drop) | Belirgin iyileşme |
| Claude 3 Opus (2024) | Düşük (~10% drop) | Constitutional AI etkisi olabilir |
| Claude Sonnet 4.6 (2026) | Düşük (~5-8% drop) | Modern, küçük ama gerçek |
| Gemini 2.5 Pro (2026) | Çok düşük (1M) ama 1M üzerinde artar | Ring attention etkisi |
Bulgu: Fenomen küçüldü ama yok olmadı. Hâlâ tasarımı etkilemeli.
Pratik Sonuçları#
Sonuç 1: Önemli Bilgiyi Başta veya Sonda Koy#
# ❌ KÖTÜ — kritik talimat ortada context = f""" [10K token doc 1] [10K token doc 2] [10K token doc 3] ÖNEMLİ: Yanıtı maksimum 100 kelimede ver. ← ortada, kaybolabilir [10K token doc 4] [10K token doc 5] """ # ✅ İYİ — kritik talimat başta veya sonda context = f""" ÖNEMLİ: Yanıtı maksimum 100 kelimede ver. ← başta [doc 1] [doc 2] [doc 3] [doc 4] [doc 5] Tekrar hatırlat: maksimum 100 kelime. ← sonda """
Sonuç 2: RAG'da Doc Sıralaması#
10 doc retrieve ettin. Hangisini önce koymalısın?
Geleneksel: En alakalı (score'a göre) en başta.
Lost-in-middle'a göre öneri: En alakalı başta, ikinci en alakalı sonda, orta sıradakiler ortada. Bu "U-arrangement".
Sonuç 3: Sistem Tahmin Edilemezlik Sınırını Anla#
Eğer context 200K ve bilginin 100K pozisyonunda kritik bir detay varsa, %5-15 ihtimalle model atlayabilir. Bu, mission-critical (hukuk, sağlık, finans) sistemlerde unutulmaması gereken risk.
Risk Yönetimi
Mission-critical use case'lerde uzun context'e tek başına güvenme. Önemli bilgiyi tekrar et — başta + sonda. RAG ile yedekle.
Bir Sonraki Test: Needle-in-Haystack#
Çok daha agresif bir test: 100K token text içinde tek bir bilgi sakla. "Pasta tarifim Trabzon'da":
[99.999 token random Wikipedia] "Şükrü'nün gizli pasta tarifi Trabzon'dadır." ← needle, herhangi pozisyon [başka random]
Soru: "Şükrü'nün gizli pasta tarifi nerededir?"
Modern modeller (Claude Sonnet 4.6, GPT-4o) genelde %95+ buluyor. Ama pozisyona göre %5-10 fark var. Ders 34'te bunun lab'ini yapacağız.
✓ Pekiştir#
Bir Sonraki Derste#
Attention sinks — context'in ilk birkaç tokenının gizli rolü. StreamingLLM araştırması ne ortaya çıkardı?
Frequently Asked Questions
Yeterli benchmark yok ama hipotez: evet, biraz. Türkçe tokenizer eklemeli dil yapısından dolayı token sayısı yüksek; aynı semantik bilgi daha geniş pozisyona yayılır. Pratik sonuç: kritik bilgiyi tekrar etmek Türkçe'de daha kritik.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Context Penceresi Ekonomisi
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Start Learning1. Temeller — Context Penceresi Ekonomisi
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
Start Learning1. Temeller — Context Penceresi Ekonomisi