Context caching'i kullanırken cache invalidation problem mi oluyor?

Evet, yönetilmesi gereken bir konu. Cache'lenen kısım hash'lenmiş — tek bir token değişirse cache miss olur. Bu yüzden "sistem prompt + statik veri" başa, "dinamik kullanıcı sorusu" sona koyulur. Modül 7'de pattern'leri detaylı işleyeceğiz.

Context Window Ekonomisi: 200K, 1M, 10M Token Bağlam — Para Yangını mı, Süper Güç mü?

Modern LLM'lerin context window'u 200K-10M tokena uzandı. Ama büyük bağlam ucuz değil: 200K'lık tek bir Sonnet 4.6 çağrısı $0.60. 'Tüm kitabı prompt'a koy' yaklaşımının gerçek maliyetini, ne zaman değdiğini, ne zaman katil olduğunu inceliyoruz.

Şükrü Yusuf KAYA

20 dakikalık okuma

14.05.2026

Orta

Context Window Ekonomisi: 200K, 1M, 10M Token Bağlam — Para Yangını mı, Süper Güç mü?

📏 Bu ders bir mühendislik kararı eğitimi

"Context window'u büyütsek mi, RAG'ı kullansak mı?" 2026'nın en sık karşılaşılan tasarım sorularından biri. Cevap: maliyet ve kalite ekseninde net bir karar matrisi var. Bu derste onu kuracağız.

Context window'un evrimi — 4K'dan 10M'a#

Yıl	Model	Context
2022	GPT-3.5-turbo	4K
2023 Q1	GPT-4	8K
2023 Q4	GPT-4-Turbo	128K
2024 Q2	Claude 3	200K
2024 Q4	Gemini 1.5 Pro	1M
2025 Q1	Gemini 1.5 Pro (preview)	2M
2025 Q3	Llama 4 Scout	10M
2026 Q1	Claude Sonnet 4.6	200K (standart), 500K (enterprise)
2026 Q2	Gemini 2.5 Pro	2M

3.5 yılda 2500× büyüme. Bu, AI'da Moore's Law'a benzer bir trend.

"Tüm kitabı prompt'a koyalım" — Maliyeti hesaplayalım#

Bir akademik kitap, ortalama:

250 sayfa
Sayfa başına ~400 kelime
~100.000 kelime → ~130.000 token (İngilizce) / 220.000 token (Türkçe)

Şimdi maliyet:

Senaryo 1: Sonnet 4.6 ile bir kitap analizi#

Input: 220K token × $3/M = $0.66
Output: 1K token × $15/M = $0.015
TOPLAM: $0.675 / çağrı

Bir kitap analizi $0.675. Kabul edilebilir mi? Tek seferlik için evet.

Ama bu her kullanıcı sorgusunda olsa? Aylık 10K sorgu = $6.750/ay — sadece sistem prompt için tüm kitap göndermek. Mantıksız.

Senaryo 2: Gemini 2.5 Pro, 1M context#

Input: 220K × $1.25/M = $0.275  (200K altı pricing)
Veya: 220K × $2.50/M = $0.55    (200K üstü pricing — sürpriz!)

⚠️ Gizli detay: Gemini 1M+ kontekst için 200K üstü token'ları 2× ücretlendirir. Bunu fiyat sayfasının dipnotunda yazıyor. Bilmezsen sürprize geliyorsun.

💥 Gemini'nin 200K tuzağı

Gemini 2.5 Pro: ≤200K input için $1.25/M**, >200K için **$ 2.50/M. Eğer 500K token gönderiyorsan, ilk 200K

1.25, sonraki 300K

2.50. Bu nedenle 1M context kullananların çoğu hiç fark etmeden faturayı 2× ödüyor. Modül 2'de tüm bu fiyat 'tier'larını detaylı geçeceğiz.

"Gizli" tier pricing — Her sağlayıcı yapıyor#

Anthropic 200K limitle sınırlı, dolayısıyla tier yok. Ama:

Sağlayıcı	Tier yapısı
OpenAI	Sabit fiyat tüm context içinde
Anthropic	Sabit fiyat
Gemini 2.5 Pro	≤200K = $1.25, >200K =$ 2.50 (2× zam)
Gemini 2.5 Flash	≤200K = $0.075, >200K =$ 0.15 (2× zam)
Llama (Groq)	Sabit
DeepSeek	Sabit

Yani: long-context için Gemini'nin "ucuz" görünmesi yanıltıcı olabilir. 200K'yı geçince Sonnet 4.6 ile aynı fiyat seviyesine gelir.

"Real" vs "Effective" Context#

Burada başka bir kritik fark: bir model 1M context destekliyor olabilir, ama gerçekten 1M token'ı işleyebiliyor mu?

Needle-in-haystack testi#

Bir araştırma metodolojisi: 100K-1M token'lık metnin arasına çok küçük bir "needle" (örn: "Anahtar kelime: bisiklet 42") sak, sonra modele "bisiklet rakamı kaç?" diye sor. Doğru cevaplayabilirse "effective context" o seviyeye kadar uzanıyor demek.

Sonuçlar (2025-2026 testleri):

Model	Reklam	Effective context
GPT-5	256K	~200K (yüksek doğruluk)
Sonnet 4.6	200K	~190K (yüksek doğruluk)
Opus 4.7	200K	~200K (mükemmel)
Gemini 2.5 Pro	2M	~500K (kalite düşer 500K üstü)
Llama 4 Scout	10M	~150K (kalite hızlı düşer)

Önemli ders: "1M context" demek "1M'i etkili kullanır" demek değil. Performance'ı kendi use-case'in için test et.

Needle-in-haystack test — context length vs accuracy — Reklam context'i ≠ effective context. Test gerçeği gösterir.

RAG vs Long Context — Mühendislik kararı#

"Long context kullanırım, RAG'a gerek yok" demek maliyet açısından nadiren doğru.

Long Context yaklaşımı#

Her sorguda 100K corpus'u prompt'a yedir
Input: 100K × $3/M = $0.30/istek

RAG yaklaşımı#

Corpus'u embed et (bir kerelik)
Her sorguda relevant 5K parçayı al
Input: 5K × $3/M = $0.015/istek

RAG = %95 ucuza, çok benzer kalitede (good retrieval ile).

Long context ne zaman doğru?

✅ Corpus 100K'dan küçük + sorgu çeşitliliği yüksek
✅ Müşteri "tüm doküman buradadır" demek istiyor (legal, finance)
✅ RAG kurmaya zaman yok, hızlı POC
✅ Cross-document reasoning gerekiyor (RAG zayıf bu konuda)

RAG ne zaman daha iyi?

✅ Corpus 100K+ büyük
✅ Sorgu sıklığı yüksek (cost amplification büyük)
✅ Doküman tek bir kullanıcıya özel değil (cache mantıklı)
✅ Latency hassasiyeti var (RAG daha hızlı response)

Cost-by-context tablosu — Pratik referans#

Use case	Context size	Sonnet 4.6 input cost / istek	Aylık (10K istek)
Simple chat	2K	$0.006	$60
RAG cevap	5K	$0.015	$150
Genişletilmiş RAG	20K	$0.060	$600
Doküman analizi	50K	$0.150	$1.500
Multi-doc RAG	100K	$0.300	$3.000
Tüm doküman	200K	$0.600	$6.000

Bir kullanım pattern'ı 100K'dan 5K'ya inerse: $3.000/ay →$ 150/ay tasarruf. 20× ucuza.

💡 Pratik kural

Her zaman: input token sayını minimize et. Long context bir araçtır — Apple Watch gibi: pahalı, herkesin ihtiyacı yok, doğru sürede doğru yerde değer. "Bir ihtimal lazım olur" diye 100K context yedirme.

Context Caching — Bağlam'ı pahalı eden şeyi tamamen değiştir#

Anthropic ve Gemini'nin context caching mekanizmaları, bu derste anlattığımız aritmetiği tamamen değiştirir.

Anthropic prompt caching#

İlk istekte cache'e yaz (input × 1.25)
Sonraki isteklerde cache'den oku (input × 0.1)
5 dakika TTL (standart) veya 1 saat TTL (premium)

Gemini context caching#

İlk istekte cache'e yaz (input × 1)
Sonraki isteklerde cache'den oku (input × 0.25)
Süre kontrolü senin

Yine "tüm kitap" senaryosu, cache ile#

Senaryo: Aynı kitap 1000 farklı sorguda bağlam olarak kullanılıyor

NO CACHE:
1000 × 220K × $3/M = $660  ← maliyet

CACHE (Anthropic, 5dk TTL, çoğu cache hit):
1 × 220K × $3.75/M = $0.825 (yazma, 1.25×)
999 × 220K × $0.30/M = $65.94 (okuma, 0.1×)
TOPLAM: $66.77  ← %90 tasarruf 🎉

Long context + caching = ekonomik mucize. Modül 7'de bu mekanizmayı bütünüyle ele alacağız.

Mini Lab — Kendi context maliyetini hesapla#

Aşağıdaki Python fonksiyonunu yaz, kendi prompt'larından geçir:

python

import tiktoken
 
# Pricing (Mayıs 2026)
PRICING = {
    "sonnet-4.6":   {"in": 3.00, "out": 15.00, "ctx_max": 200_000},
    "haiku-4.5":    {"in": 1.00, "out": 5.00,  "ctx_max": 200_000},
    "opus-4.7":     {"in": 15.0, "out": 75.0,  "ctx_max": 200_000},
    "gpt-5":        {"in": 10.0, "out": 30.0,  "ctx_max": 256_000},
    "gpt-5-mini":   {"in": 0.40, "out": 1.60,  "ctx_max": 128_000},
    "gemini-pro":   {"in": 1.25, "out": 5.00,  "ctx_max": 2_000_000, "tier_at": 200_000, "tier_mult": 2.0},
    "gemini-flash": {"in": 0.075,"out": 0.30,  "ctx_max": 2_000_000, "tier_at": 200_000, "tier_mult": 2.0},
    "deepseek-v3":  {"in": 0.27, "out": 1.10,  "ctx_max": 128_000},
}
 
def context_cost(text: str, output_tokens: int = 500):
    """Bir prompt'un farklı modellerdeki maliyetini gösterir."""
    enc = tiktoken.encoding_for_model("gpt-4o")
    input_tokens = len(enc.encode(text))
    print(f"\nInput tokens: {input_tokens:,}")
    print(f"Output tokens (varsayım): {output_tokens}")
    print("-" * 60)
    for model, p in PRICING.items():
        if input_tokens > p["ctx_max"]:
            print(f"{model:14}: ❌ context limit aşıldı")
            continue
        in_price = p["in"]
        if "tier_at" in p and input_tokens > p["tier_at"]:
            below = p["tier_at"] / 1_000_000 * in_price
            above = (input_tokens - p["tier_at"]) / 1_000_000 * (in_price * p["tier_mult"])
            in_cost = below + above
        else:
            in_cost = input_tokens / 1_000_000 * in_price
        out_cost = output_tokens / 1_000_000 * p["out"]
        total = in_cost + out_cost
        print(f"{model:14}: in=${in_cost:.4f}  out=${out_cost:.4f}  total=${total:.4f}")
 
# Test:
test_prompt = "İçeriği şuraya yapıştır..." * 1000  # ~150K karakter test
context_cost(test_prompt)

Tek fonksiyon — 9 model için aynı prompt'un maliyetini karşılaştır.

Özet — Context window kararı#

Context büyür, fiyat ucuzlamaz — token başına aynı fiyat (ya da Gemini'de 2× zam)
Her zaman input minimize et — RAG, summarization, retrieval ile
"Effective context" ≠ "Reklam context" — kendi use case'inde test et
RAG, %95 ucuzdur çoğu durumda
Context caching = ekonomik mucize — 5× tekrarlanan bağlam varsa %90 tasarruf

Bağlam penceresi ne kadar büyük olursa olsun, kullandığın token kadar ödüyorsun. Disipline kal.

▶️ Sıradaki ders

1.6 — Multimodal Token. Görsel, ses, video — bunlar tokenize edilmedikçe LLM'e giremez ama tokenize edildiklerinde mali patlama yapabilirler. Bir saatlik video transkripsiyonu $1-5 mı, neden değişir?

Sık Sorulan Sorular

Teknik olarak evet ama mali olarak kötü. 1M context her çağrıda ~$2-5 ödeyeceksin. 1000 çağrı = $2000-5000. RAG ile aynı kaliteyi $100-500'e elde edersin. Long context ekonomik olmayan bir kestirme yol — sadece tek-seferlik 'tüm doküman' analizleri için değer.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Neden Maliyet, Neden Şimdi?