Skip to content

Long-Context + Caching: 200K Statik + 1K Dinamik Pattern

Long-context'in en güçlü kullanım pattern'i: büyük statik doc'u cache'le, küçük dinamik sorgular yap. Bu derste optimizasyon trick'lerini ve sınırları öğreneceksin.

Şükrü Yusuf KAYA
12 min read
Intermediate

Long-Context Caching: Asıl Güç

Long-context tek başına pahalı. Caching ile birleştirildiğinde devrim:
İlk sorgu: 200K context yükle (~$0.60, 30sn) Sonraki sorgular: cache hit (~$0.06, 2sn)
Bu pattern Cursor, Claude Code, Perplexity, Notion AI'da temel paterndir.

Pattern Adı: "Static-Heavy Caching"#

Yapı:
Ratio'lar:
  • Statik (cache): 100K-1M token (%99 toplam input)
  • Dinamik (query): 0.1K-5K (%0.5)
  • Output: 0.5K-32K

Pratik Örnekler#

Static: Tüm codebase (50K-500K) Dynamic: "Bu fonksiyona unit test yaz" Output: ~2K kod
Cursor, Claude Code bu pattern'i kullanıyor.

Optimizasyon Trick'leri#

Trick 1: Dynamic Query'nin Yeri#

# Static cache: system prompt'a system_blocks = [ {"text": HUGE_DOC, "cache_control": {"type": "ephemeral", "ttl": "1h"}} ] # Dynamic: messages[]'a messages = [ {"role": "user", "content": "Query here"} # 200 token ]
User mesajı kesinlikle cache_control'siz. Modül 4 Ders 24'te detaylandık.

Trick 2: TTL = 1h (Long-Context için Genelde)#

Long-context'te cache write maliyetli (200K × 3.75/M=3.75/M = 0.75). 5m TTL ile sürekli yeniden yazmak kâbus. 1h TTL kullan ki doc 1 saat hayatta kalsın.
5m TTL, saatte 12 cache miss × $0.75 = $9 saatlik yazma maliyeti 1h TTL, saatte 1 cache miss × $1.5 = $1.5 saatlik (2× write fiyat ama tek seferlik)

Trick 3: Cache Warming#

Soğuk başlangıçta ilk kullanıcı 30sn bekleyecek (200K prefill). Çözüm: cache warming — sistem başlangıcında bir "dummy query" gönderip cache'i ısıt.
def warm_cache(): client.messages.create( system=[{"text": HUGE_DOC, "cache_control": {"type": "ephemeral", "ttl": "1h"}}], messages=[{"role": "user", "content": "Sistem hazır mı?"}], max_tokens=10, ) # Cache write yapıldı, sonraki sorgular hızlı
Modül 11'de production cache warming patterns'ı detayl.

Trick 4: Quality Limit'ini Bil#

200K cache'in olsa bile context rot geçerli (Ders 40). Reasoning-heavy task'larda accuracy düşer. Bunu bil, kabul et.
  • Single-needle retrieval: cache + 200K mükemmel
  • Multi-hop reasoning: cache + 50K daha iyi
  • Production'da hangisi olduğunu eval'le ölç (Modül 11)

Maliyet Hesabı (Gerçek Örnek)#

Senaryo: Hukuk Q&A asistanı, 200K corpus, ayda 50K sorgu, %95 cache hit.
Claude Sonnet 4.6 ile:
  • Cache write: 50K × 0.05 (miss rate) × 200K = 500M token × 3.75/M=3.75/M = 1875
  • Cache read: 50K × 0.95 × 200K = 9.5B token × 0.30/M=0.30/M = 2850
  • Dynamic input: 50K × 500 = 25M × 3/M=3/M = 75
  • Output: 50K × 1K = 50M × 15/M=15/M = 750
  • Toplam: $5,550/ay (~186K TL)
Cache olmadan: 50K × 200K = 10B × 3/M=3/M = 30,000/ay (~1M TL). 5× tasarruf.

✓ Pekiştir#

Bir Sonraki Derste#

Modül 6 bitirme sınavı. Long-context tüm dersleri.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content