Skip to content

Anthropic Pricing Schema: The 90% Discount Magic of Prompt Caching and the Extended Thinking Bill

Claude Haiku/Sonnet/Opus pricing table, the 1.25× write / 0.10× read math of prompt caching, the hidden output cost of extended thinking, Batch API, and why Anthropic is the most economical choice for Turkish.

Şükrü Yusuf KAYA
20 min read
Intermediate
Anthropic Fiyat Şeması: Prompt Caching'in 90% İndirim Sihri ve Extended Thinking Faturası
🎭 Anthropic'in fiyat felsefesi
Anthropic OpenAI'dan farklı bir yol seçti: basit standart fiyat + güçlü cache kontrolü. Bu, mühendise daha fazla optimizasyon alanı verir. Kursta en çok kullanacağımız sağlayıcının fiyat anatomisini açıyoruz.

Claude ailesi fiyat tablosu (Mayıs 2026)#

ModelInput ($/M)Output ($/M)ContextÖnerilen kullanım
Claude Haiku 4.5$1.00$5.00200KHızlı sınıflandırma, basit chatbot, etiketleme
Claude Sonnet 4.6$3.00$15.00200K (500K enterprise)RAG, agent, çoğu üretim iş yükü
Claude Opus 4.7$15.00$75.00200KKarmaşık reasoning, kritik kararlar
Claude Sonnet 3.5 (legacy)$3.00$15.00200KBackward compat
Claude Haiku 3.5 (legacy)$0.80$4.00200KBackward compat

Notlar#

⚠️ Haiku 4.5 önceki Haiku 3.5'ten pahalı (1vs1 vs 0.80). Sebep: Haiku 4.5 multimodal + tool use + extended thinking — neredeyse Sonnet seviyesinde yetenek.
⚠️ Output her zaman 5× input. Bu, prefill/decode asimetrisinin Anthropic versiyonu (Ders 1.4).

Anthropic Prompt Caching — Matematiği#

Anthropic'in caching mekanizması, OpenAI'dan radikal farklı:
İşlemÇarpan
Cache yazma (ilk istek)1.25× normal input
Cache okuma (sonraki istekler)0.10× normal input

Sonnet 4.6 için somut sayılar#

İşlem$/M token
Standart input$3.00
Cache write$3.75
Cache read$0.30
Cache hit eşiğin = aynı içeriği 4'üncü kez gönderdiğinde başa baş. Sonrası tamamen kâr.

Matematik#

Sabit prefix 10K token, 100 istek, hepsi aynı prefix kullanıyor. NO CACHE: 100 × 10K × $3/M = $3.00 CACHE: 1 × 10K × $3.75/M = $0.0375 (yazma) 99 × 10K × $0.30/M = $0.297 (okumalar) TOPLAM: $0.3345 ← %89 tasarruf 🎉
📊 90% indirim mucizesi
Aynı sistem prompt'unu N kere gönderdiğinde toplam maliyet ≈ standardın 1/10'u. Bu kursta öğreneceğin en güçlü tek teknik. Bir RAG chatbot'unu prompt caching ile %75-90 ucuzlatmak rutin.

TTL — 5 dakika mı, 1 saat mi?#

Anthropic'in iki TTL seçeneği var:
TTLCache write fiyatCache read fiyatNe zaman?
5 dakika (standart)1.25×0.10×Yüksek trafik, sık tekrar
1 saat (premium)2× normal0.10×Düşük trafik ama her saat sürecek

Karar nasıl verilir?#

5 dakika TTL:
  • Yazma maliyeti yarı yarıya az
  • Ama her 5 dakikada cache resetlenir
  • Trafik yüksekse (10+ istek/dk) ideal
1 saat TTL:
  • Yazma 2 katı pahalı
  • Ama 60 dakika dayanır
  • 5dk TTL'de 12 kez yeniden yazma vs 1h TTL'de 1 kez yazma

Maliyet karşılaştırma#

100 istek/saat × 10K prefix token, hangisi ucuz?
5dk TTL: - 5dk'da 1 yazma + (~8 cache read) → 12 yazma + 88 read /saat - Yazma: 12 × 10K × $3.75/M = $0.45 - Okuma: 88 × 10K × $0.30/M = $0.264 - TOPLAM: $0.714 /saat 1h TTL: - 1 yazma + 99 read /saat - Yazma: 1 × 10K × $6.00/M = $0.06 (2× normal) - Okuma: 99 × 10K × $0.30/M = $0.297 - TOPLAM: $0.357 /saat ← daha ucuz
100 istek/saat üstünde 1h TTL daha ekonomik. 5dk TTL yüksek-trafik (1000+ istek/saat) için.

Cache breakpoint'leri — Anthropic'in özel mekanizması#

Anthropic, prompt'ta maksimum 4 cache breakpoint koymana izin veriyor. Bu breakpoint'ler "buraya kadar cache'le, sonraki dinamik" demek.
messages = [ { "role": "system", "content": [ {"type": "text", "text": "Genel sistem prompt..."}, {"type": "text", "text": "Statik few-shot örnekler...", "cache_control": {"type": "ephemeral"}}, # ← BREAKPOINT 1 {"type": "text", "text": "Statik FAQ ve kurallar...", "cache_control": {"type": "ephemeral"}}, # ← BREAKPOINT 2 ], }, { "role": "user", "content": [ {"type": "text", "text": dynamic_user_question} ], }, ]
Bu mimari ile:
  • Breakpoint 1'e kadar cache'lenir (genel system + few-shot)
  • Breakpoint 2'ye kadar cache'lenir (FAQ eklendiğinde)
  • Kullanıcı sorusu her zaman dinamik
Modül 7'de tüm pattern'i derinlemesine işleyeceğiz.

Extended Thinking — Görünmez Output Maliyeti#

Claude 3.7+ ailesinde
thinking
parametresi var. Modele "düşünme bütçesi" ver.
response = client.messages.create( model="claude-sonnet-4-6", thinking={"type": "enabled", "budget_tokens": 2000}, messages=[...], ) # response.usage.cache_creation_input_tokens # response.usage.cache_read_input_tokens # response.usage.input_tokens ← görünür input # response.usage.output_tokens ← görünür output # response.usage.thinking_tokens ← THINKING (output fiyatından)

Thinking maliyeti#

Thinking token'ları output fiyatı ile faturalanır. Sonnet 4.6'da $15/M output.
budget_tokensThinking ortalamaEkstra maliyet/istek
Disabled0$0
1024 (min)~600$0.009
2000~1.500$0.0225
5000~3.500$0.0525
16000 (max)~12.000$0.180

Karar matrisi#

GörevThinking gerekli?
Basit sınıflandırma❌ Disable
Sıradan chatbot❌ Disable
RAG cevap❌ Disable
Multi-step planning✅ 1024-2000
Karmaşık matematik✅ 2000-5000
Hukuki/finansal analiz✅ 5000+
Code refactoring✅ 2000-5000
Default'un disabled olsun. Sadece gerektiğinde aç. Modül 14'te agent'larda thinking budget yönetimini detaylı işleyeceğiz.
💸 Thinking bütçe katili
16K thinking budget × 15/Moutput×100Kistek/ay=15/M output × 100K istek/ay = **24.000/ay** ekstra fatura. Birçok ekip thinking'i "sadece enable et" demekle bunu fark etmiyor. Always set budget_tokens explicitly.

Anthropic Batch API — %50 İndirim#

OpenAI'a benzer Batch API: 24h SLA, %50 indirim, async iş yükleri için ideal.
ModelStandart In/OutBatch In/Out
Haiku 4.51/1 / 50.50/0.50 / 2.50
Sonnet 4.63/3 / 151.50/1.50 / 7.50
Opus 4.715/15 / 757.50/7.50 / 37.50

Batch + Caching aynı anda çalışır mı?#

Evet — Anthropic batch'te cache'i destekliyor. Yani %50 indirim + cache %90 = toplam %95 indirim.
Senaryo: 10K async sorgu, hepsi aynı 5K sistem prompt'unu paylaşıyor Standart fiyatla: 10K × (5K + 200) × $3/M + 10K × 500 × $15/M = $156 + $75 = $231 Batch + Cache ile: 10K × (5K cache read + 200 in) × ($0.30/M cache + $1.50/M batch) + 10K × 500 × $7.50/M ≈ $15 + $9 + $37.50 = $61.50 Tasarruf: %73 🎉

Anthropic'in Türkçe avantajı#

Ders 1.2'de gördük: Claude tokenizer'ı Türkçe için en verimli. Birleştirelim:
FaktörEtki
Tokenizer verimi-%15-25 token (vs Llama/Mistral)
Prompt cache (90% indirim)-%80 (aynı prefix)
Batch API (50% indirim)-%50 async iş yükü için
Bu üçü birlikte: Türkçe ağırlıklı bir SaaS'ı diğer sağlayıcılarla karşılaştırınca, Anthropic ile %50-80 daha ucuza çalıştırmak mümkün — kalite kaybı sıfır.
Bu kursun "neden çoğu örnekte Claude?" cevabı.

Gerçek vaka: Türkçe müşteri hizmetleri agent'ı#

100K istek/ay, sistem prompt 4K (Türkçe), ortalama soru 200 token, ortalama cevap 400 token.

GPT-5 ile#

Input: 100K × 4.200 × $10/M = $4.200 Output: 100K × 400 × $30/M = $1.200 Cached input (~50% hit): -$1.050 TOPLAM: ~$4.350/ay

Sonnet 4.6 + cache (1h TTL) ile#

İlk istek (yazma): 1 × 4K × $3.75/M = $0.015 ~99K read'ler: 99K × 4K × $0.30/M = $118.80 Dinamik input: 100K × 200 × $3/M = $60 Output: 100K × 400 × $15/M = $600 TOPLAM: ~$779/ay
4.3504.350 → 779 = %82 tasarruf. Yıllık $42.852 fark. Üç değişiklikle: model swap + cache aktif + breakpoint ayarı.

Anthropic'i ne zaman seçmeli?#

Türkçe ağırlıklı iş yükü (tokenizer avantajı) ✅ Aynı sistem prompt sık tekrarlanıyor (cache 90% indirim) ✅ Tool use yoğun agent'lar (Claude 4.x tool use'da sınıfın en iyisi) ✅ Doküman analizi / vision (Sonnet 4.6 vision çok iyi) ✅ Code generation (Sonnet 4.6 ve Opus 4.7 codding'in en iyileri)
Real-time low-latency (Groq + Llama daha hızlı) ❌ Ultra-ucuz embedding (OpenAI text-embedding-3-small daha uygun) ❌ Native audio sohbet (OpenAI Realtime gerekli — Anthropic henüz desteklemiyor) ❌ Image generation (Anthropic image üretmez)
▶️ Sıradaki ders
2.3 — Google Gemini Fiyat Şeması. Gemini ailesinin tier yapısı, kontekst caching, 200K-üstü zam tuzağı, ve Vertex AI enterprise pricing.

Frequently Asked Questions

For one-off requests (cache write cost never amortizes). Or when the static portion of the prompt is shorter than the minimum (1024 for Sonnet/Opus, 2048 for Haiku). We'll cover cache hit-rate monitoring in Module 7.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content