Prefix Sharing Teoremi: Aynı Prefix → Aynı KV
Caching'in matematiksel doğruluğu. Bir sorgudaki ilk N token başka bir sorgudaki ilk N token ile aynıysa, KV matrisleri özdeştir — kanıtlıyoruz. Bu teorem, prompt caching'in 'sihir' değil 'matematik' olduğunu gösterir.
Şükrü Yusuf KAYA
12 min read
IntermediatePrefix Sharing Teoremi
Bu ders kısa ve teorik. Bir noktayı net anlayacağız:
Teorem: İki sorguda ilk (k) token birebir aynıysa (aynı tokenlar, aynı sırada), her iki sorgunun ilk (k) tokenı için hesaplanan K ve V matrisleri özdeştir.
Bu teorem, prompt caching'in doğruluğunu garanti eder. Yoksa caching "yaklaşık" olurdu, sapma riski olurdu — ama yok.
Kanıt: Layer 1 İçin#
K ve V matrislerinin nasıl hesaplandığını hatırlayalım:
Burada (x_i) = token (i)'nin embedding + pozisyon vektörü.
İki sorgu düşün:
- A: "Merhaba dünya nasılsın bugün"
- B: "Merhaba dünya nasılsın yarın"
İlk 3 token aynı: "Merhaba dünya nasılsın".
Her tokenın embedding'i sadece o tokenın kimliğine bağlı:
(x_{\text{Merhaba}}) her zaman aynı vektör. Pozisyon da aynı (her ikisinde 1. sırada).
Yani (x_1^A = x_1^B), (x_2^A = x_2^B), (x_3^A = x_3^B).
Aynı input + aynı ağırlık matrisi → aynı output:
Aynı şey V için: (V_i^A = V_i^B) for (i = 1, 2, 3). ∎ (Layer 1 için kanıtlandı.)
Kanıt: Sonraki Layer'lar İçin (Causal Mask Kritik)#
Burası inceltici kısım. Sonraki layer'larda attention output'u var:
Kritik özellik: Causal mask ((j \leq i)) sayesinde token (i)'nin output'u sadece (j = 1 \ldots i) tokenlarına bağlı. Yani kendi geçmişine, geleceğe değil.
İki sorguda ilk 3 token aynıysa:
- Token 1'in output'u sadece kendisine bağlı → aynı
- Token 2'nin output'u 1 ve 2'ye bağlı → aynı
- Token 3'ün output'u 1, 2, 3'e bağlı → aynı
Sonraki layer'lar bu output'u input alır. Tümevarımla devam:
Yani bütün layer'larda, ilk 3 tokenın K ve V matrisleri özdeş. ∎
Caching = Matematiksel Eşdeğer
Pratik sonuç: Caching tamamen doğrudur. Yanıt kalitesinde hiçbir kayıp yok. Aynı sorguyu cache açık veya kapalı çalıştırırsan bit-identik output alırsın (sampling deterministik olduğu sürece).
Causal Mask'in Önemi Tekrar#
Vurgulayalım: caching causal mask sayesinde mümkün. Eğer encoder-only modellerde (BERT) olduğu gibi bidirectional attention olsaydı, geleceğin tokenları da geçmişi etkilerdi → cache mümkün olmazdı.
GPT/Claude/Llama tipi decoder-only modeller causal attention kullanır, bu yüzden caching mümkün.
Decoder-only (Causal)#
Token 1 → görür: 1 Token 2 → görür: 1, 2 Token 3 → görür: 1, 2, 3 Token 4 → görür: 1, 2, 3, 4
✅ Prefix sharing mümkün
Encoder (Bidirectional)#
Token 1 → görür: 1, 2, 3, 4 Token 2 → görür: 1, 2, 3, 4 Token 3 → görür: 1, 2, 3, 4 Token 4 → görür: 1, 2, 3, 4
❌ Prefix sharing yok (token 1 cache'i bile token 4'e bağlı)
Önemli Nüans: "Exact Prefix"#
Cache hit için prefix kelime-kelime aynı olmak zorunda. Birkaç incelik:
- Whitespace fark eder: "Merhaba dünya" vs "Merhaba dünya" (iki boşluk) → cache miss
- Casing fark eder: "Merhaba" vs "merhaba" → tokenizer farklı output → cache miss
- Tokenization sınırı kritik: "Merhaba!" tokenlarsa, "Merhaba" + "!" ayrı sorguda farklı olabilir
Prefix Hassasiyeti
Üretim sistemlerinde insanı en çok yakan tuzak: dynamic veriyi prompt'un başına koymak. Bir trailing whitespace bile cache'i geçersiz kılar. Modül 4'te "static-first, dynamic-last" kuralını detaylı işleyeceğiz.
✓ Pekiştir#
Bir Sonraki Derste#
Şimdi gerçekten kendimiz KV cache implementasyonu yazacağız — küçük bir transformer'da, Python'da, 50 satır. Cache açık/kapalı performans farkını kendi gözlerinle göreceksin.
Frequently Asked Questions
Output token'lar farklı olabilir çünkü sampling random; ama K, V matrisleri özdeş, dolayısıyla 'probability distribution' özdeş. Same seed → same output. Caching matematiksel olarak %100 lossless.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Context Penceresi Ekonomisi
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Start Learning1. Temeller — Context Penceresi Ekonomisi
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
Start Learning1. Temeller — Context Penceresi Ekonomisi