Extended thinking, cache ile aynı isteğe konabilir mi?

Evet, ikisi de aynı istekte kullanılabilir. Cache input'a, thinking output'a uygulanır — birbiriyle çakışmaz. Ama cache write sırasında thinking'i de write maliyetinde sayar; bu nedenle thinking aktifken cache write 1.25× × thinking_factor olabilir.

Anthropic Fiyat Şeması: Prompt Caching'in 90% İndirim Sihri ve Extended Thinking Faturası

Claude Haiku/Sonnet/Opus fiyat tablosu, prompt caching'in 1.25× yazma / 0.10× okuma matematiği, extended thinking'in gizli output maliyeti, Batch API ve Anthropic'in Türkçe için neden en ekonomik seçim olduğu.

Şükrü Yusuf KAYA

20 dakikalık okuma

14.05.2026

Orta

Anthropic Fiyat Şeması: Prompt Caching'in 90% İndirim Sihri ve Extended Thinking Faturası

🎭 Anthropic'in fiyat felsefesi

Anthropic OpenAI'dan farklı bir yol seçti: basit standart fiyat + güçlü cache kontrolü. Bu, mühendise daha fazla optimizasyon alanı verir. Kursta en çok kullanacağımız sağlayıcının fiyat anatomisini açıyoruz.

Claude ailesi fiyat tablosu (Mayıs 2026)#

Model	Input ($/M)	Output ($/M)	Context	Önerilen kullanım
Claude Haiku 4.5	$1.00	$5.00	200K	Hızlı sınıflandırma, basit chatbot, etiketleme
Claude Sonnet 4.6	$3.00	$15.00	200K (500K enterprise)	RAG, agent, çoğu üretim iş yükü
Claude Opus 4.7	$15.00	$75.00	200K	Karmaşık reasoning, kritik kararlar
Claude Sonnet 3.5 (legacy)	$3.00	$15.00	200K	Backward compat
Claude Haiku 3.5 (legacy)	$0.80	$4.00	200K	Backward compat

Notlar#

⚠️ Haiku 4.5 önceki Haiku 3.5'ten pahalı (

1 vs

0.80). Sebep: Haiku 4.5 multimodal + tool use + extended thinking — neredeyse Sonnet seviyesinde yetenek.

⚠️ Output her zaman 5× input. Bu, prefill/decode asimetrisinin Anthropic versiyonu (Ders 1.4).

Anthropic Prompt Caching — Matematiği#

Anthropic'in caching mekanizması, OpenAI'dan radikal farklı:

İşlem	Çarpan
Cache yazma (ilk istek)	1.25× normal input
Cache okuma (sonraki istekler)	0.10× normal input ⭐

Sonnet 4.6 için somut sayılar#

İşlem	$/M token
Standart input	$3.00
Cache write	$3.75
Cache read	$0.30 ⭐

Cache hit eşiğin = aynı içeriği 4'üncü kez gönderdiğinde başa baş. Sonrası tamamen kâr.

Matematik#

Sabit prefix 10K token, 100 istek, hepsi aynı prefix kullanıyor.

NO CACHE:
100 × 10K × $3/M = $3.00

CACHE:
1 × 10K × $3.75/M = $0.0375  (yazma)
99 × 10K × $0.30/M = $0.297   (okumalar)
TOPLAM: $0.3345  ← %89 tasarruf 🎉

📊 90% indirim mucizesi

Aynı sistem prompt'unu N kere gönderdiğinde toplam maliyet ≈ standardın 1/10'u. Bu kursta öğreneceğin en güçlü tek teknik. Bir RAG chatbot'unu prompt caching ile %75-90 ucuzlatmak rutin.

TTL — 5 dakika mı, 1 saat mi?#

Anthropic'in iki TTL seçeneği var:

TTL	Cache write fiyat	Cache read fiyat	Ne zaman?
5 dakika (standart)	1.25×	0.10×	Yüksek trafik, sık tekrar
1 saat (premium)	2× normal	0.10×	Düşük trafik ama her saat sürecek

Karar nasıl verilir?#

5 dakika TTL:

Yazma maliyeti yarı yarıya az
Ama her 5 dakikada cache resetlenir
Trafik yüksekse (10+ istek/dk) ideal

1 saat TTL:

Yazma 2 katı pahalı
Ama 60 dakika dayanır
5dk TTL'de 12 kez yeniden yazma vs 1h TTL'de 1 kez yazma

Maliyet karşılaştırma#

100 istek/saat × 10K prefix token, hangisi ucuz?

5dk TTL:
- 5dk'da 1 yazma + (~8 cache read) → 12 yazma + 88 read /saat
- Yazma: 12 × 10K × $3.75/M = $0.45
- Okuma: 88 × 10K × $0.30/M = $0.264
- TOPLAM: $0.714 /saat

1h TTL:
- 1 yazma + 99 read /saat
- Yazma: 1 × 10K × $6.00/M = $0.06   (2× normal)
- Okuma: 99 × 10K × $0.30/M = $0.297
- TOPLAM: $0.357 /saat ← daha ucuz

100 istek/saat üstünde 1h TTL daha ekonomik. 5dk TTL yüksek-trafik (1000+ istek/saat) için.

Cache breakpoint'leri — Anthropic'in özel mekanizması#

Anthropic, prompt'ta maksimum 4 cache breakpoint koymana izin veriyor. Bu breakpoint'ler "buraya kadar cache'le, sonraki dinamik" demek.

messages = [
    {
        "role": "system",
        "content": [
            {"type": "text", "text": "Genel sistem prompt..."},
            {"type": "text", "text": "Statik few-shot örnekler...",
             "cache_control": {"type": "ephemeral"}},  # ← BREAKPOINT 1
            {"type": "text", "text": "Statik FAQ ve kurallar...",
             "cache_control": {"type": "ephemeral"}},  # ← BREAKPOINT 2
        ],
    },
    {
        "role": "user",
        "content": [
            {"type": "text", "text": dynamic_user_question}
        ],
    },
]

Bu mimari ile:

Breakpoint 1'e kadar cache'lenir (genel system + few-shot)
Breakpoint 2'ye kadar cache'lenir (FAQ eklendiğinde)
Kullanıcı sorusu her zaman dinamik

Modül 7'de tüm pattern'i derinlemesine işleyeceğiz.

Extended Thinking — Görünmez Output Maliyeti#

Claude 3.7+ ailesinde

thinking

parametresi var. Modele "düşünme bütçesi" ver.

response = client.messages.create(
    model="claude-sonnet-4-6",
    thinking={"type": "enabled", "budget_tokens": 2000},
    messages=[...],
)

# response.usage.cache_creation_input_tokens
# response.usage.cache_read_input_tokens
# response.usage.input_tokens          ← görünür input
# response.usage.output_tokens         ← görünür output
# response.usage.thinking_tokens       ← THINKING (output fiyatından)

Thinking maliyeti#

Thinking token'ları output fiyatı ile faturalanır. Sonnet 4.6'da $15/M output.

budget_tokens	Thinking ortalama	Ekstra maliyet/istek
Disabled	0	$0
1024 (min)	~600	$0.009
2000	~1.500	$0.0225
5000	~3.500	$0.0525
16000 (max)	~12.000	$0.180

Karar matrisi#

Görev	Thinking gerekli?
Basit sınıflandırma	❌ Disable
Sıradan chatbot	❌ Disable
RAG cevap	❌ Disable
Multi-step planning	✅ 1024-2000
Karmaşık matematik	✅ 2000-5000
Hukuki/finansal analiz	✅ 5000+
Code refactoring	✅ 2000-5000

Default'un disabled olsun. Sadece gerektiğinde aç. Modül 14'te agent'larda thinking budget yönetimini detaylı işleyeceğiz.

💸 Thinking bütçe katili

16K thinking budget ×

15/M output × 100K istek/ay = **

24.000/ay** ekstra fatura. Birçok ekip thinking'i "sadece enable et" demekle bunu fark etmiyor. Always set budget_tokens explicitly.

Anthropic Batch API — %50 İndirim#

OpenAI'a benzer Batch API: 24h SLA, %50 indirim, async iş yükleri için ideal.

Model	Standart In/Out	Batch In/Out
Haiku 4.5	$1 /$ 5	$0.50 /$ 2.50
Sonnet 4.6	$3 /$ 15	$1.50 /$ 7.50
Opus 4.7	$15 /$ 75	$7.50 /$ 37.50

Batch + Caching aynı anda çalışır mı?#

Evet — Anthropic batch'te cache'i destekliyor. Yani %50 indirim + cache %90 = toplam %95 indirim.

Senaryo: 10K async sorgu, hepsi aynı 5K sistem prompt'unu paylaşıyor

Standart fiyatla:
10K × (5K + 200) × $3/M + 10K × 500 × $15/M = $156 + $75 = $231

Batch + Cache ile:
10K × (5K cache read + 200 in) × ($0.30/M cache + $1.50/M batch) + 10K × 500 × $7.50/M
≈ $15 + $9 + $37.50 = $61.50

Tasarruf: %73 🎉

Anthropic'in Türkçe avantajı#

Ders 1.2'de gördük: Claude tokenizer'ı Türkçe için en verimli. Birleştirelim:

Faktör	Etki
Tokenizer verimi	-%15-25 token (vs Llama/Mistral)
Prompt cache (90% indirim)	-%80 (aynı prefix)
Batch API (50% indirim)	-%50 async iş yükü için

Bu üçü birlikte: Türkçe ağırlıklı bir SaaS'ı diğer sağlayıcılarla karşılaştırınca, Anthropic ile %50-80 daha ucuza çalıştırmak mümkün — kalite kaybı sıfır.

Bu kursun "neden çoğu örnekte Claude?" cevabı.

Gerçek vaka: Türkçe müşteri hizmetleri agent'ı#

100K istek/ay, sistem prompt 4K (Türkçe), ortalama soru 200 token, ortalama cevap 400 token.

GPT-5 ile#

Input:  100K × 4.200 × $10/M  = $4.200
Output: 100K × 400 × $30/M    = $1.200
Cached input (~50% hit):       -$1.050
TOPLAM: ~$4.350/ay

Sonnet 4.6 + cache (1h TTL) ile#

İlk istek (yazma): 1 × 4K × $3.75/M = $0.015
~99K read'ler:     99K × 4K × $0.30/M = $118.80
Dinamik input:     100K × 200 × $3/M = $60
Output:            100K × 400 × $15/M = $600
TOPLAM: ~$779/ay

$4.350 →$ 779 = %82 tasarruf. Yıllık $42.852 fark. Üç değişiklikle: model swap + cache aktif + breakpoint ayarı.

Anthropic'i ne zaman seçmeli?#

✅ Türkçe ağırlıklı iş yükü (tokenizer avantajı) ✅ Aynı sistem prompt sık tekrarlanıyor (cache 90% indirim) ✅ Tool use yoğun agent'lar (Claude 4.x tool use'da sınıfın en iyisi) ✅ Doküman analizi / vision (Sonnet 4.6 vision çok iyi) ✅ Code generation (Sonnet 4.6 ve Opus 4.7 codding'in en iyileri)

❌ Real-time low-latency (Groq + Llama daha hızlı) ❌ Ultra-ucuz embedding (OpenAI text-embedding-3-small daha uygun) ❌ Native audio sohbet (OpenAI Realtime gerekli — Anthropic henüz desteklemiyor) ❌ Image generation (Anthropic image üretmez)

▶️ Sıradaki ders

2.3 — Google Gemini Fiyat Şeması. Gemini ailesinin tier yapısı, kontekst caching, 200K-üstü zam tuzağı, ve Vertex AI enterprise pricing.

Sık Sorulan Sorular

Tek-seferlik isteklerde (cache write maliyeti hiç amortize olmaz). Veya prompt'un sabit kısmı 1024 tokendan kısaysa cache eligibility limitine takılır (Sonnet/Opus için 1024 minimum, Haiku için 2048). Modül 7'de cache hit-rate'i izleme yöntemini göstereceğiz.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

İlgili İçerikler

Modül 0: Neden Maliyet, Neden Şimdi?