Context Window Ekonomisi: 200K, 1M, 10M Token Bağlam — Para Yangını mı, Süper Güç mü?
Modern LLM'lerin context window'u 200K-10M tokena uzandı. Ama büyük bağlam ucuz değil: 200K'lık tek bir Sonnet 4.6 çağrısı $0.60. 'Tüm kitabı prompt'a koy' yaklaşımının gerçek maliyetini, ne zaman değdiğini, ne zaman katil olduğunu inceliyoruz.
Şükrü Yusuf KAYA
20 dakikalık okuma
Orta📏 Bu ders bir mühendislik kararı eğitimi
"Context window'u büyütsek mi, RAG'ı kullansak mı?" 2026'nın en sık karşılaşılan tasarım sorularından biri. Cevap: maliyet ve kalite ekseninde net bir karar matrisi var. Bu derste onu kuracağız.
Context window'un evrimi — 4K'dan 10M'a#
| Yıl | Model | Context |
|---|---|---|
| 2022 | GPT-3.5-turbo | 4K |
| 2023 Q1 | GPT-4 | 8K |
| 2023 Q4 | GPT-4-Turbo | 128K |
| 2024 Q2 | Claude 3 | 200K |
| 2024 Q4 | Gemini 1.5 Pro | 1M |
| 2025 Q1 | Gemini 1.5 Pro (preview) | 2M |
| 2025 Q3 | Llama 4 Scout | 10M |
| 2026 Q1 | Claude Sonnet 4.6 | 200K (standart), 500K (enterprise) |
| 2026 Q2 | Gemini 2.5 Pro | 2M |
3.5 yılda 2500× büyüme. Bu, AI'da Moore's Law'a benzer bir trend.
"Tüm kitabı prompt'a koyalım" — Maliyeti hesaplayalım#
Bir akademik kitap, ortalama:
- 250 sayfa
- Sayfa başına ~400 kelime
- ~100.000 kelime → ~130.000 token (İngilizce) / 220.000 token (Türkçe)
Şimdi maliyet:
Senaryo 1: Sonnet 4.6 ile bir kitap analizi#
Input: 220K token × $3/M = $0.66 Output: 1K token × $15/M = $0.015 TOPLAM: $0.675 / çağrı
Bir kitap analizi $0.675. Kabul edilebilir mi? Tek seferlik için evet.
Ama bu her kullanıcı sorgusunda olsa? Aylık 10K sorgu = $6.750/ay — sadece sistem prompt için tüm kitap göndermek. Mantıksız.
Senaryo 2: Gemini 2.5 Pro, 1M context#
Input: 220K × $1.25/M = $0.275 (200K altı pricing) Veya: 220K × $2.50/M = $0.55 (200K üstü pricing — sürpriz!)
⚠️ Gizli detay: Gemini 1M+ kontekst için 200K üstü token'ları 2× ücretlendirir. Bunu fiyat sayfasının dipnotunda yazıyor. Bilmezsen sürprize geliyorsun.
💥 Gemini'nin 200K tuzağı
Gemini 2.5 Pro: ≤200K input için 2.50/M. Eğer 500K token gönderiyorsan, ilk 200K 2.50. Bu nedenle 1M context kullananların çoğu hiç fark etmeden faturayı 2× ödüyor. Modül 2'de tüm bu fiyat 'tier'larını detaylı geçeceğiz.
"Gizli" tier pricing — Her sağlayıcı yapıyor#
Anthropic 200K limitle sınırlı, dolayısıyla tier yok. Ama:
| Sağlayıcı | Tier yapısı |
|---|---|
| OpenAI | Sabit fiyat tüm context içinde |
| Anthropic | Sabit fiyat |
| Gemini 2.5 Pro | ≤200K = 2.50 (2× zam) |
| Gemini 2.5 Flash | ≤200K = 0.15 (2× zam) |
| Llama (Groq) | Sabit |
| DeepSeek | Sabit |
Yani: long-context için Gemini'nin "ucuz" görünmesi yanıltıcı olabilir. 200K'yı geçince Sonnet 4.6 ile aynı fiyat seviyesine gelir.
"Real" vs "Effective" Context#
Burada başka bir kritik fark: bir model 1M context destekliyor olabilir, ama gerçekten 1M token'ı işleyebiliyor mu?
Needle-in-haystack testi#
Bir araştırma metodolojisi: 100K-1M token'lık metnin arasına çok küçük bir "needle" (örn: "Anahtar kelime: bisiklet 42") sak, sonra modele "bisiklet rakamı kaç?" diye sor. Doğru cevaplayabilirse "effective context" o seviyeye kadar uzanıyor demek.
Sonuçlar (2025-2026 testleri):
| Model | Reklam | Effective context |
|---|---|---|
| GPT-5 | 256K | ~200K (yüksek doğruluk) |
| Sonnet 4.6 | 200K | ~190K (yüksek doğruluk) |
| Opus 4.7 | 200K | ~200K (mükemmel) |
| Gemini 2.5 Pro | 2M | ~500K (kalite düşer 500K üstü) |
| Llama 4 Scout | 10M | ~150K (kalite hızlı düşer) |
Önemli ders: "1M context" demek "1M'i etkili kullanır" demek değil. Performance'ı kendi use-case'in için test et.
RAG vs Long Context — Mühendislik kararı#
"Long context kullanırım, RAG'a gerek yok" demek maliyet açısından nadiren doğru.
Long Context yaklaşımı#
Her sorguda 100K corpus'u prompt'a yedir Input: 100K × $3/M = $0.30/istek
RAG yaklaşımı#
Corpus'u embed et (bir kerelik) Her sorguda relevant 5K parçayı al Input: 5K × $3/M = $0.015/istek
RAG = %95 ucuza, çok benzer kalitede (good retrieval ile).
Long context ne zaman doğru?
- ✅ Corpus 100K'dan küçük + sorgu çeşitliliği yüksek
- ✅ Müşteri "tüm doküman buradadır" demek istiyor (legal, finance)
- ✅ RAG kurmaya zaman yok, hızlı POC
- ✅ Cross-document reasoning gerekiyor (RAG zayıf bu konuda)
RAG ne zaman daha iyi?
- ✅ Corpus 100K+ büyük
- ✅ Sorgu sıklığı yüksek (cost amplification büyük)
- ✅ Doküman tek bir kullanıcıya özel değil (cache mantıklı)
- ✅ Latency hassasiyeti var (RAG daha hızlı response)
Cost-by-context tablosu — Pratik referans#
| Use case | Context size | Sonnet 4.6 input cost / istek | Aylık (10K istek) |
|---|---|---|---|
| Simple chat | 2K | $0.006 | $60 |
| RAG cevap | 5K | $0.015 | $150 |
| Genişletilmiş RAG | 20K | $0.060 | $600 |
| Doküman analizi | 50K | $0.150 | $1.500 |
| Multi-doc RAG | 100K | $0.300 | $3.000 |
| Tüm doküman | 200K | $0.600 | $6.000 |
Bir kullanım pattern'ı 100K'dan 5K'ya inerse: 150/ay tasarruf. 20× ucuza.
💡 Pratik kural
Her zaman: input token sayını minimize et. Long context bir araçtır — Apple Watch gibi: pahalı, herkesin ihtiyacı yok, doğru sürede doğru yerde değer. "Bir ihtimal lazım olur" diye 100K context yedirme.
Context Caching — Bağlam'ı pahalı eden şeyi tamamen değiştir#
Anthropic ve Gemini'nin context caching mekanizmaları, bu derste anlattığımız aritmetiği tamamen değiştirir.
Anthropic prompt caching#
- İlk istekte cache'e yaz (input × 1.25)
- Sonraki isteklerde cache'den oku (input × 0.1)
- 5 dakika TTL (standart) veya 1 saat TTL (premium)
Gemini context caching#
- İlk istekte cache'e yaz (input × 1)
- Sonraki isteklerde cache'den oku (input × 0.25)
- Süre kontrolü senin
Yine "tüm kitap" senaryosu, cache ile#
Senaryo: Aynı kitap 1000 farklı sorguda bağlam olarak kullanılıyor NO CACHE: 1000 × 220K × $3/M = $660 ← maliyet CACHE (Anthropic, 5dk TTL, çoğu cache hit): 1 × 220K × $3.75/M = $0.825 (yazma, 1.25×) 999 × 220K × $0.30/M = $65.94 (okuma, 0.1×) TOPLAM: $66.77 ← %90 tasarruf 🎉
Long context + caching = ekonomik mucize. Modül 7'de bu mekanizmayı bütünüyle ele alacağız.
Mini Lab — Kendi context maliyetini hesapla#
Aşağıdaki Python fonksiyonunu yaz, kendi prompt'larından geçir:
python
import tiktoken # Pricing (Mayıs 2026)PRICING = { "sonnet-4.6": {"in": 3.00, "out": 15.00, "ctx_max": 200_000}, "haiku-4.5": {"in": 1.00, "out": 5.00, "ctx_max": 200_000}, "opus-4.7": {"in": 15.0, "out": 75.0, "ctx_max": 200_000}, "gpt-5": {"in": 10.0, "out": 30.0, "ctx_max": 256_000}, "gpt-5-mini": {"in": 0.40, "out": 1.60, "ctx_max": 128_000}, "gemini-pro": {"in": 1.25, "out": 5.00, "ctx_max": 2_000_000, "tier_at": 200_000, "tier_mult": 2.0}, "gemini-flash": {"in": 0.075,"out": 0.30, "ctx_max": 2_000_000, "tier_at": 200_000, "tier_mult": 2.0}, "deepseek-v3": {"in": 0.27, "out": 1.10, "ctx_max": 128_000},} def context_cost(text: str, output_tokens: int = 500): """Bir prompt'un farklı modellerdeki maliyetini gösterir.""" enc = tiktoken.encoding_for_model("gpt-4o") input_tokens = len(enc.encode(text)) print(f"\nInput tokens: {input_tokens:,}") print(f"Output tokens (varsayım): {output_tokens}") print("-" * 60) for model, p in PRICING.items(): if input_tokens > p["ctx_max"]: print(f"{model:14}: ❌ context limit aşıldı") continue in_price = p["in"] if "tier_at" in p and input_tokens > p["tier_at"]: below = p["tier_at"] / 1_000_000 * in_price above = (input_tokens - p["tier_at"]) / 1_000_000 * (in_price * p["tier_mult"]) in_cost = below + above else: in_cost = input_tokens / 1_000_000 * in_price out_cost = output_tokens / 1_000_000 * p["out"] total = in_cost + out_cost print(f"{model:14}: in=${in_cost:.4f} out=${out_cost:.4f} total=${total:.4f}") # Test:test_prompt = "İçeriği şuraya yapıştır..." * 1000 # ~150K karakter testcontext_cost(test_prompt)Tek fonksiyon — 9 model için aynı prompt'un maliyetini karşılaştır.
Özet — Context window kararı#
- Context büyür, fiyat ucuzlamaz — token başına aynı fiyat (ya da Gemini'de 2× zam)
- Her zaman input minimize et — RAG, summarization, retrieval ile
- "Effective context" ≠ "Reklam context" — kendi use case'inde test et
- RAG, %95 ucuzdur çoğu durumda
- Context caching = ekonomik mucize — 5× tekrarlanan bağlam varsa %90 tasarruf
Bağlam penceresi ne kadar büyük olursa olsun, kullandığın token kadar ödüyorsun. Disipline kal.
▶️ Sıradaki ders
1.6 — Multimodal Token. Görsel, ses, video — bunlar tokenize edilmedikçe LLM'e giremez ama tokenize edildiklerinde mali patlama yapabilirler. Bir saatlik video transkripsiyonu $1-5 mı, neden değişir?
Sık Sorulan Sorular
Teknik olarak evet ama mali olarak kötü. 1M context her çağrıda ~$2-5 ödeyeceksin. 1000 çağrı = $2000-5000. RAG ile aynı kaliteyi $100-500'e elde edersin. Long context ekonomik olmayan bir kestirme yol — sadece tek-seferlik 'tüm doküman' analizleri için değer.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Neden Maliyet, Neden Şimdi?
AI Maliyet Patlaması: 2022'den 2026'ya Token Fiyatları Neden %96 Düştü Ama Faturalar Neden 40 Kat Arttı?
Öğrenmeye BaşlaModül 0: Neden Maliyet, Neden Şimdi?
Birim Ekonomisi Sözlüğü: COGS, Gross Margin, $/User, Contribution Margin — Mühendisin Bilmesi Gereken 9 Finansal Kavram
Öğrenmeye BaşlaModül 0: Neden Maliyet, Neden Şimdi?