Bu kanıt MoE (Mixture of Experts) modellerinde de geçerli mi?

Evet, ama biraz daha karmaşık. Expert routing input'a deterministik olduğu sürece aynı token aynı expert'e gider, KV'ler aynı kalır. Modern MoE'lerde (Mixtral, DeepSeek) bu sağlanmış.

Prefix Sharing Teoremi: Aynı Prefix → Aynı KV

Name: Prefix Sharing Teoremi: Aynı Prefix → Aynı KV
Author: Şükrü Yusuf KAYA

Caching'in matematiksel doğruluğu. Bir sorgudaki ilk N token başka bir sorgudaki ilk N token ile aynıysa, KV matrisleri özdeştir — kanıtlıyoruz. Bu teorem, prompt caching'in 'sihir' değil 'matematik' olduğunu gösterir.

Şükrü Yusuf KAYA

12 min read

5/14/2026

Intermediate

Prefix Sharing Teoremi

Bu ders kısa ve teorik. Bir noktayı net anlayacağız:

Teorem: İki sorguda ilk (k) token birebir aynıysa (aynı tokenlar, aynı sırada), her iki sorgunun ilk (k) tokenı için hesaplanan K ve V matrisleri özdeştir.

Bu teorem, prompt caching'in doğruluğunu garanti eder. Yoksa caching "yaklaşık" olurdu, sapma riski olurdu — ama yok.

Kanıt: Layer 1 İçin#

K ve V matrislerinin nasıl hesaplandığını hatırlayalım:

Burada (x_i) = token (i)'nin embedding + pozisyon vektörü.

İki sorgu düşün:

A: "Merhaba dünya nasılsın bugün"
B: "Merhaba dünya nasılsın yarın"

İlk 3 token aynı: "Merhaba dünya nasılsın".

Her tokenın embedding'i sadece o tokenın kimliğine bağlı: (x_{\text{Merhaba}}) her zaman aynı vektör. Pozisyon da aynı (her ikisinde 1. sırada).

Yani (x_1^A = x_1^B), (x_2^A = x_2^B), (x_3^A = x_3^B).

Aynı input + aynı ağırlık matrisi → aynı output:

Aynı şey V için: (V_i^A = V_i^B) for (i = 1, 2, 3). ∎ (Layer 1 için kanıtlandı.)

Kanıt: Sonraki Layer'lar İçin (Causal Mask Kritik)#

Burası inceltici kısım. Sonraki layer'larda attention output'u var:

Kritik özellik: Causal mask ((j \leq i)) sayesinde token (i)'nin output'u sadece (j = 1 \ldots i) tokenlarına bağlı. Yani kendi geçmişine, geleceğe değil.

İki sorguda ilk 3 token aynıysa:

Token 1'in output'u sadece kendisine bağlı → aynı
Token 2'nin output'u 1 ve 2'ye bağlı → aynı
Token 3'ün output'u 1, 2, 3'e bağlı → aynı

Sonraki layer'lar bu output'u input alır. Tümevarımla devam:

Yani bütün layer'larda, ilk 3 tokenın K ve V matrisleri özdeş. ∎

Caching = Matematiksel Eşdeğer

Pratik sonuç: Caching tamamen doğrudur. Yanıt kalitesinde hiçbir kayıp yok. Aynı sorguyu cache açık veya kapalı çalıştırırsan bit-identik output alırsın (sampling deterministik olduğu sürece).

Causal Mask'in Önemi Tekrar#

Vurgulayalım: caching causal mask sayesinde mümkün. Eğer encoder-only modellerde (BERT) olduğu gibi bidirectional attention olsaydı, geleceğin tokenları da geçmişi etkilerdi → cache mümkün olmazdı.

GPT/Claude/Llama tipi decoder-only modeller causal attention kullanır, bu yüzden caching mümkün.

Decoder-only (Causal)#

Token 1 → görür: 1
Token 2 → görür: 1, 2
Token 3 → görür: 1, 2, 3
Token 4 → görür: 1, 2, 3, 4

✅ Prefix sharing mümkün

Encoder (Bidirectional)#

Token 1 → görür: 1, 2, 3, 4
Token 2 → görür: 1, 2, 3, 4
Token 3 → görür: 1, 2, 3, 4
Token 4 → görür: 1, 2, 3, 4

❌ Prefix sharing yok (token 1 cache'i bile token 4'e bağlı)

Önemli Nüans: "Exact Prefix"#

Cache hit için prefix kelime-kelime aynı olmak zorunda. Birkaç incelik:

Whitespace fark eder: "Merhaba dünya" vs "Merhaba dünya" (iki boşluk) → cache miss
Casing fark eder: "Merhaba" vs "merhaba" → tokenizer farklı output → cache miss
Tokenization sınırı kritik: "Merhaba!" tokenlarsa, "Merhaba" + "!" ayrı sorguda farklı olabilir

Prefix Hassasiyeti

Üretim sistemlerinde insanı en çok yakan tuzak: dynamic veriyi prompt'un başına koymak. Bir trailing whitespace bile cache'i geçersiz kılar. Modül 4'te "static-first, dynamic-last" kuralını detaylı işleyeceğiz.

✓ Pekiştir#

Bir Sonraki Derste#

Şimdi gerçekten kendimiz KV cache implementasyonu yazacağız — küçük bir transformer'da, Python'da, 50 satır. Cache açık/kapalı performans farkını kendi gözlerinle göreceksin.

Frequently Asked Questions

Output token'lar farklı olabilir çünkü sampling random; ama K, V matrisleri özdeş, dolayısıyla 'probability distribution' özdeş. Same seed → same output. Caching matematiksel olarak %100 lossless.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...