İçeriğe geç

Lost in the Middle: Pozisyon Bias'ı ve Sonuçları

LLM'ler context'in başını ve sonunu daha iyi hatırlıyor — orta kısmı sıklıkla 'kayboluyor'. Bu derste 2023'teki Stanford araştırmasını, sonraki benchmarkları ve pratik öneriler.

Şükrü Yusuf KAYA
13 dakikalık okuma
Orta

Lost in the Middle: Pozisyon Bias'ı

Stanford'dan Nelson Liu ve ekibi 2023'te şaşırtıcı bir bulgu yayınladı:
"LLM'ler context'lerinin başında ve sonunda olan bilgileri çok iyi kullanıyor; ama ortasında olan bilgileri sıklıkla atlıyor."
Bu fenomene "Lost in the Middle" dediler. Yayın: arXiv:2307.03172.
Bu, context engineering'in en pratik bulgularından biri.

Deney Düzeneği#

Liu et al. şu testi yaptı:
  1. Bir soru hazırla (örn. "Hangi şirket 2008'de kuruldu?")
  2. Soruyu cevaplayan bilgiyi 10 doc'tan birine koy
  3. Doc'ları farklı pozisyonlara yerleştir
  4. LLM'e sor: cevabı bulabilir mi?
Sonuç (GPT-3.5, 10 doc'ta 1 doğru):
Doğru cevap pozisyonuAccuracy
1. doc (başta)%75
2. doc%62
3. doc%55
4. doc%48
5. doc%42 (en düşük)
6. doc%46
7. doc%51
8. doc%58
9. doc%63
10. doc (sonda)%72
Grafik haline getirirsen U şeklinde bir eğri çıkıyor — başta ve sonda yüksek, ortada düşük.

Neden Böyle?#

Üç hipotez:
  1. Attention training bias — modeller eğitim sırasında daha çok başlangıç + son tokenlara dikkat etmiş
  2. Position encoding — RoPE gibi pozisyonel kodlamalar uzun mesafelerde zayıflıyor
  3. U-shaped attention pattern — empirik olarak attention head'lerin çoğu U pattern'i öğreniyor

Modern Modellerde Hâlâ Geçerli Mi?#

Evet, ama daha az ciddi. 2024-2026 modellerinde:
ModelLost-in-middle ciddiyetiNotlar
GPT-3.5 (2023)Yüksek (~30% drop)Orijinal araştırma
GPT-4o (2024)Orta (~15% drop)Belirgin iyileşme
Claude 3 Opus (2024)Düşük (~10% drop)Constitutional AI etkisi olabilir
Claude Sonnet 4.6 (2026)Düşük (~5-8% drop)Modern, küçük ama gerçek
Gemini 2.5 Pro (2026)Çok düşük (1M) ama 1M üzerinde artarRing attention etkisi
Bulgu: Fenomen küçüldü ama yok olmadı. Hâlâ tasarımı etkilemeli.

Pratik Sonuçları#

Sonuç 1: Önemli Bilgiyi Başta veya Sonda Koy#

# ❌ KÖTÜ — kritik talimat ortada context = f""" [10K token doc 1] [10K token doc 2] [10K token doc 3] ÖNEMLİ: Yanıtı maksimum 100 kelimede ver. ← ortada, kaybolabilir [10K token doc 4] [10K token doc 5] """ # ✅ İYİ — kritik talimat başta veya sonda context = f""" ÖNEMLİ: Yanıtı maksimum 100 kelimede ver. ← başta [doc 1] [doc 2] [doc 3] [doc 4] [doc 5] Tekrar hatırlat: maksimum 100 kelime. ← sonda """

Sonuç 2: RAG'da Doc Sıralaması#

10 doc retrieve ettin. Hangisini önce koymalısın?
Geleneksel: En alakalı (score'a göre) en başta.
Lost-in-middle'a göre öneri: En alakalı başta, ikinci en alakalı sonda, orta sıradakiler ortada. Bu "U-arrangement".

Sonuç 3: Sistem Tahmin Edilemezlik Sınırını Anla#

Eğer context 200K ve bilginin 100K pozisyonunda kritik bir detay varsa, %5-15 ihtimalle model atlayabilir. Bu, mission-critical (hukuk, sağlık, finans) sistemlerde unutulmaması gereken risk.
Risk Yönetimi
Mission-critical use case'lerde uzun context'e tek başına güvenme. Önemli bilgiyi tekrar et — başta + sonda. RAG ile yedekle.

Bir Sonraki Test: Needle-in-Haystack#

Çok daha agresif bir test: 100K token text içinde tek bir bilgi sakla. "Pasta tarifim Trabzon'da":
[99.999 token random Wikipedia] "Şükrü'nün gizli pasta tarifi Trabzon'dadır." ← needle, herhangi pozisyon [başka random]
Soru: "Şükrü'nün gizli pasta tarifi nerededir?"
Modern modeller (Claude Sonnet 4.6, GPT-4o) genelde %95+ buluyor. Ama pozisyona göre %5-10 fark var. Ders 34'te bunun lab'ini yapacağız.

✓ Pekiştir#

Bir Sonraki Derste#

Attention sinks — context'in ilk birkaç tokenının gizli rolü. StreamingLLM araştırması ne ortaya çıkardı?

Sık Sorulan Sorular

Yeterli benchmark yok ama hipotez: evet, biraz. Türkçe tokenizer eklemeli dil yapısından dolayı token sayısı yüksek; aynı semantik bilgi daha geniş pozisyona yayılır. Pratik sonuç: kritik bilgiyi tekrar etmek Türkçe'de daha kritik.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler