İçeriğe geç

Anthropic Fiyat Şeması: Prompt Caching'in 90% İndirim Sihri ve Extended Thinking Faturası

Claude Haiku/Sonnet/Opus fiyat tablosu, prompt caching'in 1.25× yazma / 0.10× okuma matematiği, extended thinking'in gizli output maliyeti, Batch API ve Anthropic'in Türkçe için neden en ekonomik seçim olduğu.

Şükrü Yusuf KAYA
20 dakikalık okuma
Orta
Anthropic Fiyat Şeması: Prompt Caching'in 90% İndirim Sihri ve Extended Thinking Faturası
🎭 Anthropic'in fiyat felsefesi
Anthropic OpenAI'dan farklı bir yol seçti: basit standart fiyat + güçlü cache kontrolü. Bu, mühendise daha fazla optimizasyon alanı verir. Kursta en çok kullanacağımız sağlayıcının fiyat anatomisini açıyoruz.

Claude ailesi fiyat tablosu (Mayıs 2026)#

ModelInput ($/M)Output ($/M)ContextÖnerilen kullanım
Claude Haiku 4.5$1.00$5.00200KHızlı sınıflandırma, basit chatbot, etiketleme
Claude Sonnet 4.6$3.00$15.00200K (500K enterprise)RAG, agent, çoğu üretim iş yükü
Claude Opus 4.7$15.00$75.00200KKarmaşık reasoning, kritik kararlar
Claude Sonnet 3.5 (legacy)$3.00$15.00200KBackward compat
Claude Haiku 3.5 (legacy)$0.80$4.00200KBackward compat

Notlar#

⚠️ Haiku 4.5 önceki Haiku 3.5'ten pahalı (1vs1 vs 0.80). Sebep: Haiku 4.5 multimodal + tool use + extended thinking — neredeyse Sonnet seviyesinde yetenek.
⚠️ Output her zaman 5× input. Bu, prefill/decode asimetrisinin Anthropic versiyonu (Ders 1.4).

Anthropic Prompt Caching — Matematiği#

Anthropic'in caching mekanizması, OpenAI'dan radikal farklı:
İşlemÇarpan
Cache yazma (ilk istek)1.25× normal input
Cache okuma (sonraki istekler)0.10× normal input

Sonnet 4.6 için somut sayılar#

İşlem$/M token
Standart input$3.00
Cache write$3.75
Cache read$0.30
Cache hit eşiğin = aynı içeriği 4'üncü kez gönderdiğinde başa baş. Sonrası tamamen kâr.

Matematik#

Sabit prefix 10K token, 100 istek, hepsi aynı prefix kullanıyor. NO CACHE: 100 × 10K × $3/M = $3.00 CACHE: 1 × 10K × $3.75/M = $0.0375 (yazma) 99 × 10K × $0.30/M = $0.297 (okumalar) TOPLAM: $0.3345 ← %89 tasarruf 🎉
📊 90% indirim mucizesi
Aynı sistem prompt'unu N kere gönderdiğinde toplam maliyet ≈ standardın 1/10'u. Bu kursta öğreneceğin en güçlü tek teknik. Bir RAG chatbot'unu prompt caching ile %75-90 ucuzlatmak rutin.

TTL — 5 dakika mı, 1 saat mi?#

Anthropic'in iki TTL seçeneği var:
TTLCache write fiyatCache read fiyatNe zaman?
5 dakika (standart)1.25×0.10×Yüksek trafik, sık tekrar
1 saat (premium)2× normal0.10×Düşük trafik ama her saat sürecek

Karar nasıl verilir?#

5 dakika TTL:
  • Yazma maliyeti yarı yarıya az
  • Ama her 5 dakikada cache resetlenir
  • Trafik yüksekse (10+ istek/dk) ideal
1 saat TTL:
  • Yazma 2 katı pahalı
  • Ama 60 dakika dayanır
  • 5dk TTL'de 12 kez yeniden yazma vs 1h TTL'de 1 kez yazma

Maliyet karşılaştırma#

100 istek/saat × 10K prefix token, hangisi ucuz?
5dk TTL: - 5dk'da 1 yazma + (~8 cache read) → 12 yazma + 88 read /saat - Yazma: 12 × 10K × $3.75/M = $0.45 - Okuma: 88 × 10K × $0.30/M = $0.264 - TOPLAM: $0.714 /saat 1h TTL: - 1 yazma + 99 read /saat - Yazma: 1 × 10K × $6.00/M = $0.06 (2× normal) - Okuma: 99 × 10K × $0.30/M = $0.297 - TOPLAM: $0.357 /saat ← daha ucuz
100 istek/saat üstünde 1h TTL daha ekonomik. 5dk TTL yüksek-trafik (1000+ istek/saat) için.

Cache breakpoint'leri — Anthropic'in özel mekanizması#

Anthropic, prompt'ta maksimum 4 cache breakpoint koymana izin veriyor. Bu breakpoint'ler "buraya kadar cache'le, sonraki dinamik" demek.
messages = [ { "role": "system", "content": [ {"type": "text", "text": "Genel sistem prompt..."}, {"type": "text", "text": "Statik few-shot örnekler...", "cache_control": {"type": "ephemeral"}}, # ← BREAKPOINT 1 {"type": "text", "text": "Statik FAQ ve kurallar...", "cache_control": {"type": "ephemeral"}}, # ← BREAKPOINT 2 ], }, { "role": "user", "content": [ {"type": "text", "text": dynamic_user_question} ], }, ]
Bu mimari ile:
  • Breakpoint 1'e kadar cache'lenir (genel system + few-shot)
  • Breakpoint 2'ye kadar cache'lenir (FAQ eklendiğinde)
  • Kullanıcı sorusu her zaman dinamik
Modül 7'de tüm pattern'i derinlemesine işleyeceğiz.

Extended Thinking — Görünmez Output Maliyeti#

Claude 3.7+ ailesinde
thinking
parametresi var. Modele "düşünme bütçesi" ver.
response = client.messages.create( model="claude-sonnet-4-6", thinking={"type": "enabled", "budget_tokens": 2000}, messages=[...], ) # response.usage.cache_creation_input_tokens # response.usage.cache_read_input_tokens # response.usage.input_tokens ← görünür input # response.usage.output_tokens ← görünür output # response.usage.thinking_tokens ← THINKING (output fiyatından)

Thinking maliyeti#

Thinking token'ları output fiyatı ile faturalanır. Sonnet 4.6'da $15/M output.
budget_tokensThinking ortalamaEkstra maliyet/istek
Disabled0$0
1024 (min)~600$0.009
2000~1.500$0.0225
5000~3.500$0.0525
16000 (max)~12.000$0.180

Karar matrisi#

GörevThinking gerekli?
Basit sınıflandırma❌ Disable
Sıradan chatbot❌ Disable
RAG cevap❌ Disable
Multi-step planning✅ 1024-2000
Karmaşık matematik✅ 2000-5000
Hukuki/finansal analiz✅ 5000+
Code refactoring✅ 2000-5000
Default'un disabled olsun. Sadece gerektiğinde aç. Modül 14'te agent'larda thinking budget yönetimini detaylı işleyeceğiz.
💸 Thinking bütçe katili
16K thinking budget × 15/Moutput×100Kistek/ay=15/M output × 100K istek/ay = **24.000/ay** ekstra fatura. Birçok ekip thinking'i "sadece enable et" demekle bunu fark etmiyor. Always set budget_tokens explicitly.

Anthropic Batch API — %50 İndirim#

OpenAI'a benzer Batch API: 24h SLA, %50 indirim, async iş yükleri için ideal.
ModelStandart In/OutBatch In/Out
Haiku 4.51/1 / 50.50/0.50 / 2.50
Sonnet 4.63/3 / 151.50/1.50 / 7.50
Opus 4.715/15 / 757.50/7.50 / 37.50

Batch + Caching aynı anda çalışır mı?#

Evet — Anthropic batch'te cache'i destekliyor. Yani %50 indirim + cache %90 = toplam %95 indirim.
Senaryo: 10K async sorgu, hepsi aynı 5K sistem prompt'unu paylaşıyor Standart fiyatla: 10K × (5K + 200) × $3/M + 10K × 500 × $15/M = $156 + $75 = $231 Batch + Cache ile: 10K × (5K cache read + 200 in) × ($0.30/M cache + $1.50/M batch) + 10K × 500 × $7.50/M ≈ $15 + $9 + $37.50 = $61.50 Tasarruf: %73 🎉

Anthropic'in Türkçe avantajı#

Ders 1.2'de gördük: Claude tokenizer'ı Türkçe için en verimli. Birleştirelim:
FaktörEtki
Tokenizer verimi-%15-25 token (vs Llama/Mistral)
Prompt cache (90% indirim)-%80 (aynı prefix)
Batch API (50% indirim)-%50 async iş yükü için
Bu üçü birlikte: Türkçe ağırlıklı bir SaaS'ı diğer sağlayıcılarla karşılaştırınca, Anthropic ile %50-80 daha ucuza çalıştırmak mümkün — kalite kaybı sıfır.
Bu kursun "neden çoğu örnekte Claude?" cevabı.

Gerçek vaka: Türkçe müşteri hizmetleri agent'ı#

100K istek/ay, sistem prompt 4K (Türkçe), ortalama soru 200 token, ortalama cevap 400 token.

GPT-5 ile#

Input: 100K × 4.200 × $10/M = $4.200 Output: 100K × 400 × $30/M = $1.200 Cached input (~50% hit): -$1.050 TOPLAM: ~$4.350/ay

Sonnet 4.6 + cache (1h TTL) ile#

İlk istek (yazma): 1 × 4K × $3.75/M = $0.015 ~99K read'ler: 99K × 4K × $0.30/M = $118.80 Dinamik input: 100K × 200 × $3/M = $60 Output: 100K × 400 × $15/M = $600 TOPLAM: ~$779/ay
4.3504.350 → 779 = %82 tasarruf. Yıllık $42.852 fark. Üç değişiklikle: model swap + cache aktif + breakpoint ayarı.

Anthropic'i ne zaman seçmeli?#

Türkçe ağırlıklı iş yükü (tokenizer avantajı) ✅ Aynı sistem prompt sık tekrarlanıyor (cache 90% indirim) ✅ Tool use yoğun agent'lar (Claude 4.x tool use'da sınıfın en iyisi) ✅ Doküman analizi / vision (Sonnet 4.6 vision çok iyi) ✅ Code generation (Sonnet 4.6 ve Opus 4.7 codding'in en iyileri)
Real-time low-latency (Groq + Llama daha hızlı) ❌ Ultra-ucuz embedding (OpenAI text-embedding-3-small daha uygun) ❌ Native audio sohbet (OpenAI Realtime gerekli — Anthropic henüz desteklemiyor) ❌ Image generation (Anthropic image üretmez)
▶️ Sıradaki ders
2.3 — Google Gemini Fiyat Şeması. Gemini ailesinin tier yapısı, kontekst caching, 200K-üstü zam tuzağı, ve Vertex AI enterprise pricing.

Sık Sorulan Sorular

Tek-seferlik isteklerde (cache write maliyeti hiç amortize olmaz). Veya prompt'un sabit kısmı 1024 tokendan kısaysa cache eligibility limitine takılır (Sonnet/Opus için 1024 minimum, Haiku için 2048). Modül 7'de cache hit-rate'i izleme yöntemini göstereceğiz.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler