İçeriğe geç

Context Window Ekonomisi: 200K, 1M, 10M Token Bağlam — Para Yangını mı, Süper Güç mü?

Modern LLM'lerin context window'u 200K-10M tokena uzandı. Ama büyük bağlam ucuz değil: 200K'lık tek bir Sonnet 4.6 çağrısı $0.60. 'Tüm kitabı prompt'a koy' yaklaşımının gerçek maliyetini, ne zaman değdiğini, ne zaman katil olduğunu inceliyoruz.

Şükrü Yusuf KAYA
20 dakikalık okuma
Orta
Context Window Ekonomisi: 200K, 1M, 10M Token Bağlam — Para Yangını mı, Süper Güç mü?
📏 Bu ders bir mühendislik kararı eğitimi
"Context window'u büyütsek mi, RAG'ı kullansak mı?" 2026'nın en sık karşılaşılan tasarım sorularından biri. Cevap: maliyet ve kalite ekseninde net bir karar matrisi var. Bu derste onu kuracağız.

Context window'un evrimi — 4K'dan 10M'a#

YılModelContext
2022GPT-3.5-turbo4K
2023 Q1GPT-48K
2023 Q4GPT-4-Turbo128K
2024 Q2Claude 3200K
2024 Q4Gemini 1.5 Pro1M
2025 Q1Gemini 1.5 Pro (preview)2M
2025 Q3Llama 4 Scout10M
2026 Q1Claude Sonnet 4.6200K (standart), 500K (enterprise)
2026 Q2Gemini 2.5 Pro2M
3.5 yılda 2500× büyüme. Bu, AI'da Moore's Law'a benzer bir trend.

"Tüm kitabı prompt'a koyalım" — Maliyeti hesaplayalım#

Bir akademik kitap, ortalama:
  • 250 sayfa
  • Sayfa başına ~400 kelime
  • ~100.000 kelime → ~130.000 token (İngilizce) / 220.000 token (Türkçe)
Şimdi maliyet:

Senaryo 1: Sonnet 4.6 ile bir kitap analizi#

Input: 220K token × $3/M = $0.66 Output: 1K token × $15/M = $0.015 TOPLAM: $0.675 / çağrı
Bir kitap analizi $0.675. Kabul edilebilir mi? Tek seferlik için evet.
Ama bu her kullanıcı sorgusunda olsa? Aylık 10K sorgu = $6.750/ay — sadece sistem prompt için tüm kitap göndermek. Mantıksız.

Senaryo 2: Gemini 2.5 Pro, 1M context#

Input: 220K × $1.25/M = $0.275 (200K altı pricing) Veya: 220K × $2.50/M = $0.55 (200K üstü pricing — sürpriz!)
⚠️ Gizli detay: Gemini 1M+ kontekst için 200K üstü token'ları ücretlendirir. Bunu fiyat sayfasının dipnotunda yazıyor. Bilmezsen sürprize geliyorsun.
💥 Gemini'nin 200K tuzağı
Gemini 2.5 Pro: ≤200K input için 1.25/M,>200Kic\cin1.25/M**, >200K için **2.50/M. Eğer 500K token gönderiyorsan, ilk 200K 1.25,sonraki300K1.25, sonraki 300K 2.50. Bu nedenle 1M context kullananların çoğu hiç fark etmeden faturayı 2× ödüyor. Modül 2'de tüm bu fiyat 'tier'larını detaylı geçeceğiz.

"Gizli" tier pricing — Her sağlayıcı yapıyor#

Anthropic 200K limitle sınırlı, dolayısıyla tier yok. Ama:
SağlayıcıTier yapısı
OpenAISabit fiyat tüm context içinde
AnthropicSabit fiyat
Gemini 2.5 Pro≤200K = 1.25,>200K=1.25, >200K = 2.50 (2× zam)
Gemini 2.5 Flash≤200K = 0.075,>200K=0.075, >200K = 0.15 (2× zam)
Llama (Groq)Sabit
DeepSeekSabit
Yani: long-context için Gemini'nin "ucuz" görünmesi yanıltıcı olabilir. 200K'yı geçince Sonnet 4.6 ile aynı fiyat seviyesine gelir.

"Real" vs "Effective" Context#

Burada başka bir kritik fark: bir model 1M context destekliyor olabilir, ama gerçekten 1M token'ı işleyebiliyor mu?

Needle-in-haystack testi#

Bir araştırma metodolojisi: 100K-1M token'lık metnin arasına çok küçük bir "needle" (örn: "Anahtar kelime: bisiklet 42") sak, sonra modele "bisiklet rakamı kaç?" diye sor. Doğru cevaplayabilirse "effective context" o seviyeye kadar uzanıyor demek.
Sonuçlar (2025-2026 testleri):
ModelReklamEffective context
GPT-5256K~200K (yüksek doğruluk)
Sonnet 4.6200K~190K (yüksek doğruluk)
Opus 4.7200K~200K (mükemmel)
Gemini 2.5 Pro2M~500K (kalite düşer 500K üstü)
Llama 4 Scout10M~150K (kalite hızlı düşer)
Önemli ders: "1M context" demek "1M'i etkili kullanır" demek değil. Performance'ı kendi use-case'in için test et.
Needle-in-haystack test — context length vs accuracy
Reklam context'i ≠ effective context. Test gerçeği gösterir.

RAG vs Long Context — Mühendislik kararı#

"Long context kullanırım, RAG'a gerek yok" demek maliyet açısından nadiren doğru.

Long Context yaklaşımı#

Her sorguda 100K corpus'u prompt'a yedir Input: 100K × $3/M = $0.30/istek

RAG yaklaşımı#

Corpus'u embed et (bir kerelik) Her sorguda relevant 5K parçayı al Input: 5K × $3/M = $0.015/istek
RAG = %95 ucuza, çok benzer kalitede (good retrieval ile).
Long context ne zaman doğru?
  • ✅ Corpus 100K'dan küçük + sorgu çeşitliliği yüksek
  • ✅ Müşteri "tüm doküman buradadır" demek istiyor (legal, finance)
  • ✅ RAG kurmaya zaman yok, hızlı POC
  • ✅ Cross-document reasoning gerekiyor (RAG zayıf bu konuda)
RAG ne zaman daha iyi?
  • ✅ Corpus 100K+ büyük
  • ✅ Sorgu sıklığı yüksek (cost amplification büyük)
  • ✅ Doküman tek bir kullanıcıya özel değil (cache mantıklı)
  • ✅ Latency hassasiyeti var (RAG daha hızlı response)

Cost-by-context tablosu — Pratik referans#

Use caseContext sizeSonnet 4.6 input cost / istekAylık (10K istek)
Simple chat2K$0.006$60
RAG cevap5K$0.015$150
Genişletilmiş RAG20K$0.060$600
Doküman analizi50K$0.150$1.500
Multi-doc RAG100K$0.300$3.000
Tüm doküman200K$0.600$6.000
Bir kullanım pattern'ı 100K'dan 5K'ya inerse: 3.000/ay3.000/ay → 150/ay tasarruf. 20× ucuza.
💡 Pratik kural
Her zaman: input token sayını minimize et. Long context bir araçtır — Apple Watch gibi: pahalı, herkesin ihtiyacı yok, doğru sürede doğru yerde değer. "Bir ihtimal lazım olur" diye 100K context yedirme.

Context Caching — Bağlam'ı pahalı eden şeyi tamamen değiştir#

Anthropic ve Gemini'nin context caching mekanizmaları, bu derste anlattığımız aritmetiği tamamen değiştirir.

Anthropic prompt caching#

  • İlk istekte cache'e yaz (input × 1.25)
  • Sonraki isteklerde cache'den oku (input × 0.1)
  • 5 dakika TTL (standart) veya 1 saat TTL (premium)

Gemini context caching#

  • İlk istekte cache'e yaz (input × 1)
  • Sonraki isteklerde cache'den oku (input × 0.25)
  • Süre kontrolü senin

Yine "tüm kitap" senaryosu, cache ile#

Senaryo: Aynı kitap 1000 farklı sorguda bağlam olarak kullanılıyor NO CACHE: 1000 × 220K × $3/M = $660 ← maliyet CACHE (Anthropic, 5dk TTL, çoğu cache hit): 1 × 220K × $3.75/M = $0.825 (yazma, 1.25×) 999 × 220K × $0.30/M = $65.94 (okuma, 0.1×) TOPLAM: $66.77 ← %90 tasarruf 🎉
Long context + caching = ekonomik mucize. Modül 7'de bu mekanizmayı bütünüyle ele alacağız.

Mini Lab — Kendi context maliyetini hesapla#

Aşağıdaki Python fonksiyonunu yaz, kendi prompt'larından geçir:
python
import tiktoken
 
# Pricing (Mayıs 2026)
PRICING = {
"sonnet-4.6": {"in": 3.00, "out": 15.00, "ctx_max": 200_000},
"haiku-4.5": {"in": 1.00, "out": 5.00, "ctx_max": 200_000},
"opus-4.7": {"in": 15.0, "out": 75.0, "ctx_max": 200_000},
"gpt-5": {"in": 10.0, "out": 30.0, "ctx_max": 256_000},
"gpt-5-mini": {"in": 0.40, "out": 1.60, "ctx_max": 128_000},
"gemini-pro": {"in": 1.25, "out": 5.00, "ctx_max": 2_000_000, "tier_at": 200_000, "tier_mult": 2.0},
"gemini-flash": {"in": 0.075,"out": 0.30, "ctx_max": 2_000_000, "tier_at": 200_000, "tier_mult": 2.0},
"deepseek-v3": {"in": 0.27, "out": 1.10, "ctx_max": 128_000},
}
 
def context_cost(text: str, output_tokens: int = 500):
"""Bir prompt'un farklı modellerdeki maliyetini gösterir."""
enc = tiktoken.encoding_for_model("gpt-4o")
input_tokens = len(enc.encode(text))
print(f"\nInput tokens: {input_tokens:,}")
print(f"Output tokens (varsayım): {output_tokens}")
print("-" * 60)
for model, p in PRICING.items():
if input_tokens > p["ctx_max"]:
print(f"{model:14}: ❌ context limit aşıldı")
continue
in_price = p["in"]
if "tier_at" in p and input_tokens > p["tier_at"]:
below = p["tier_at"] / 1_000_000 * in_price
above = (input_tokens - p["tier_at"]) / 1_000_000 * (in_price * p["tier_mult"])
in_cost = below + above
else:
in_cost = input_tokens / 1_000_000 * in_price
out_cost = output_tokens / 1_000_000 * p["out"]
total = in_cost + out_cost
print(f"{model:14}: in=${in_cost:.4f} out=${out_cost:.4f} total=${total:.4f}")
 
# Test:
test_prompt = "İçeriği şuraya yapıştır..." * 1000 # ~150K karakter test
context_cost(test_prompt)
Tek fonksiyon — 9 model için aynı prompt'un maliyetini karşılaştır.

Özet — Context window kararı#

  • Context büyür, fiyat ucuzlamaz — token başına aynı fiyat (ya da Gemini'de 2× zam)
  • Her zaman input minimize et — RAG, summarization, retrieval ile
  • "Effective context" ≠ "Reklam context" — kendi use case'inde test et
  • RAG, %95 ucuzdur çoğu durumda
  • Context caching = ekonomik mucize — 5× tekrarlanan bağlam varsa %90 tasarruf
Bağlam penceresi ne kadar büyük olursa olsun, kullandığın token kadar ödüyorsun. Disipline kal.
▶️ Sıradaki ders
1.6 — Multimodal Token. Görsel, ses, video — bunlar tokenize edilmedikçe LLM'e giremez ama tokenize edildiklerinde mali patlama yapabilirler. Bir saatlik video transkripsiyonu $1-5 mı, neden değişir?

Sık Sorulan Sorular

Teknik olarak evet ama mali olarak kötü. 1M context her çağrıda ~$2-5 ödeyeceksin. 1000 çağrı = $2000-5000. RAG ile aynı kaliteyi $100-500'e elde edersin. Long context ekonomik olmayan bir kestirme yol — sadece tek-seferlik 'tüm doküman' analizleri için değer.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler