Anthropic Pricing Schema: The 90% Discount Magic of Prompt Caching and the Extended Thinking Bill
Claude Haiku/Sonnet/Opus pricing table, the 1.25× write / 0.10× read math of prompt caching, the hidden output cost of extended thinking, Batch API, and why Anthropic is the most economical choice for Turkish.
Şükrü Yusuf KAYA
20 min read
Intermediate🎭 Anthropic'in fiyat felsefesi
Anthropic OpenAI'dan farklı bir yol seçti: basit standart fiyat + güçlü cache kontrolü. Bu, mühendise daha fazla optimizasyon alanı verir. Kursta en çok kullanacağımız sağlayıcının fiyat anatomisini açıyoruz.
Claude ailesi fiyat tablosu (Mayıs 2026)#
| Model | Input ($/M) | Output ($/M) | Context | Önerilen kullanım |
|---|---|---|---|---|
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | Hızlı sınıflandırma, basit chatbot, etiketleme |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K (500K enterprise) | RAG, agent, çoğu üretim iş yükü |
| Claude Opus 4.7 | $15.00 | $75.00 | 200K | Karmaşık reasoning, kritik kararlar |
| Claude Sonnet 3.5 (legacy) | $3.00 | $15.00 | 200K | Backward compat |
| Claude Haiku 3.5 (legacy) | $0.80 | $4.00 | 200K | Backward compat |
Notlar#
⚠️ Haiku 4.5 önceki Haiku 3.5'ten pahalı (0.80). Sebep: Haiku 4.5 multimodal + tool use + extended thinking — neredeyse Sonnet seviyesinde yetenek.
⚠️ Output her zaman 5× input. Bu, prefill/decode asimetrisinin Anthropic versiyonu (Ders 1.4).
Anthropic Prompt Caching — Matematiği#
Anthropic'in caching mekanizması, OpenAI'dan radikal farklı:
| İşlem | Çarpan |
|---|---|
| Cache yazma (ilk istek) | 1.25× normal input |
| Cache okuma (sonraki istekler) | 0.10× normal input ⭐ |
Sonnet 4.6 için somut sayılar#
| İşlem | $/M token |
|---|---|
| Standart input | $3.00 |
| Cache write | $3.75 |
| Cache read | $0.30 ⭐ |
Cache hit eşiğin = aynı içeriği 4'üncü kez gönderdiğinde başa baş. Sonrası tamamen kâr.
Matematik#
Sabit prefix 10K token, 100 istek, hepsi aynı prefix kullanıyor. NO CACHE: 100 × 10K × $3/M = $3.00 CACHE: 1 × 10K × $3.75/M = $0.0375 (yazma) 99 × 10K × $0.30/M = $0.297 (okumalar) TOPLAM: $0.3345 ← %89 tasarruf 🎉
📊 90% indirim mucizesi
Aynı sistem prompt'unu N kere gönderdiğinde toplam maliyet ≈ standardın 1/10'u. Bu kursta öğreneceğin en güçlü tek teknik. Bir RAG chatbot'unu prompt caching ile %75-90 ucuzlatmak rutin.
TTL — 5 dakika mı, 1 saat mi?#
Anthropic'in iki TTL seçeneği var:
| TTL | Cache write fiyat | Cache read fiyat | Ne zaman? |
|---|---|---|---|
| 5 dakika (standart) | 1.25× | 0.10× | Yüksek trafik, sık tekrar |
| 1 saat (premium) | 2× normal | 0.10× | Düşük trafik ama her saat sürecek |
Karar nasıl verilir?#
5 dakika TTL:
- Yazma maliyeti yarı yarıya az
- Ama her 5 dakikada cache resetlenir
- Trafik yüksekse (10+ istek/dk) ideal
1 saat TTL:
- Yazma 2 katı pahalı
- Ama 60 dakika dayanır
- 5dk TTL'de 12 kez yeniden yazma vs 1h TTL'de 1 kez yazma
Maliyet karşılaştırma#
100 istek/saat × 10K prefix token, hangisi ucuz?
5dk TTL: - 5dk'da 1 yazma + (~8 cache read) → 12 yazma + 88 read /saat - Yazma: 12 × 10K × $3.75/M = $0.45 - Okuma: 88 × 10K × $0.30/M = $0.264 - TOPLAM: $0.714 /saat 1h TTL: - 1 yazma + 99 read /saat - Yazma: 1 × 10K × $6.00/M = $0.06 (2× normal) - Okuma: 99 × 10K × $0.30/M = $0.297 - TOPLAM: $0.357 /saat ← daha ucuz
100 istek/saat üstünde 1h TTL daha ekonomik. 5dk TTL yüksek-trafik (1000+ istek/saat) için.
Cache breakpoint'leri — Anthropic'in özel mekanizması#
Anthropic, prompt'ta maksimum 4 cache breakpoint koymana izin veriyor. Bu breakpoint'ler "buraya kadar cache'le, sonraki dinamik" demek.
messages = [ { "role": "system", "content": [ {"type": "text", "text": "Genel sistem prompt..."}, {"type": "text", "text": "Statik few-shot örnekler...", "cache_control": {"type": "ephemeral"}}, # ← BREAKPOINT 1 {"type": "text", "text": "Statik FAQ ve kurallar...", "cache_control": {"type": "ephemeral"}}, # ← BREAKPOINT 2 ], }, { "role": "user", "content": [ {"type": "text", "text": dynamic_user_question} ], }, ]
Bu mimari ile:
- Breakpoint 1'e kadar cache'lenir (genel system + few-shot)
- Breakpoint 2'ye kadar cache'lenir (FAQ eklendiğinde)
- Kullanıcı sorusu her zaman dinamik
Modül 7'de tüm pattern'i derinlemesine işleyeceğiz.
Extended Thinking — Görünmez Output Maliyeti#
Claude 3.7+ ailesinde parametresi var. Modele "düşünme bütçesi" ver.
thinkingresponse = client.messages.create( model="claude-sonnet-4-6", thinking={"type": "enabled", "budget_tokens": 2000}, messages=[...], ) # response.usage.cache_creation_input_tokens # response.usage.cache_read_input_tokens # response.usage.input_tokens ← görünür input # response.usage.output_tokens ← görünür output # response.usage.thinking_tokens ← THINKING (output fiyatından)
Thinking maliyeti#
Thinking token'ları output fiyatı ile faturalanır. Sonnet 4.6'da $15/M output.
| budget_tokens | Thinking ortalama | Ekstra maliyet/istek |
|---|---|---|
| Disabled | 0 | $0 |
| 1024 (min) | ~600 | $0.009 |
| 2000 | ~1.500 | $0.0225 |
| 5000 | ~3.500 | $0.0525 |
| 16000 (max) | ~12.000 | $0.180 |
Karar matrisi#
| Görev | Thinking gerekli? |
|---|---|
| Basit sınıflandırma | ❌ Disable |
| Sıradan chatbot | ❌ Disable |
| RAG cevap | ❌ Disable |
| Multi-step planning | ✅ 1024-2000 |
| Karmaşık matematik | ✅ 2000-5000 |
| Hukuki/finansal analiz | ✅ 5000+ |
| Code refactoring | ✅ 2000-5000 |
Default'un disabled olsun. Sadece gerektiğinde aç. Modül 14'te agent'larda thinking budget yönetimini detaylı işleyeceğiz.
💸 Thinking bütçe katili
16K thinking budget × 24.000/ay** ekstra fatura. Birçok ekip thinking'i "sadece enable et" demekle bunu fark etmiyor. Always set budget_tokens explicitly.
Anthropic Batch API — %50 İndirim#
OpenAI'a benzer Batch API: 24h SLA, %50 indirim, async iş yükleri için ideal.
| Model | Standart In/Out | Batch In/Out |
|---|---|---|
| Haiku 4.5 | 5 | 2.50 |
| Sonnet 4.6 | 15 | 7.50 |
| Opus 4.7 | 75 | 37.50 |
Batch + Caching aynı anda çalışır mı?#
Evet — Anthropic batch'te cache'i destekliyor. Yani %50 indirim + cache %90 = toplam %95 indirim.
Senaryo: 10K async sorgu, hepsi aynı 5K sistem prompt'unu paylaşıyor Standart fiyatla: 10K × (5K + 200) × $3/M + 10K × 500 × $15/M = $156 + $75 = $231 Batch + Cache ile: 10K × (5K cache read + 200 in) × ($0.30/M cache + $1.50/M batch) + 10K × 500 × $7.50/M ≈ $15 + $9 + $37.50 = $61.50 Tasarruf: %73 🎉
Anthropic'in Türkçe avantajı#
Ders 1.2'de gördük: Claude tokenizer'ı Türkçe için en verimli. Birleştirelim:
| Faktör | Etki |
|---|---|
| Tokenizer verimi | -%15-25 token (vs Llama/Mistral) |
| Prompt cache (90% indirim) | -%80 (aynı prefix) |
| Batch API (50% indirim) | -%50 async iş yükü için |
Bu üçü birlikte: Türkçe ağırlıklı bir SaaS'ı diğer sağlayıcılarla karşılaştırınca, Anthropic ile %50-80 daha ucuza çalıştırmak mümkün — kalite kaybı sıfır.
Bu kursun "neden çoğu örnekte Claude?" cevabı.
Gerçek vaka: Türkçe müşteri hizmetleri agent'ı#
100K istek/ay, sistem prompt 4K (Türkçe), ortalama soru 200 token, ortalama cevap 400 token.
GPT-5 ile#
Input: 100K × 4.200 × $10/M = $4.200 Output: 100K × 400 × $30/M = $1.200 Cached input (~50% hit): -$1.050 TOPLAM: ~$4.350/ay
Sonnet 4.6 + cache (1h TTL) ile#
İlk istek (yazma): 1 × 4K × $3.75/M = $0.015 ~99K read'ler: 99K × 4K × $0.30/M = $118.80 Dinamik input: 100K × 200 × $3/M = $60 Output: 100K × 400 × $15/M = $600 TOPLAM: ~$779/ay
779 = %82 tasarruf. Yıllık $42.852 fark. Üç değişiklikle: model swap + cache aktif + breakpoint ayarı.
Anthropic'i ne zaman seçmeli?#
✅ Türkçe ağırlıklı iş yükü (tokenizer avantajı)
✅ Aynı sistem prompt sık tekrarlanıyor (cache 90% indirim)
✅ Tool use yoğun agent'lar (Claude 4.x tool use'da sınıfın en iyisi)
✅ Doküman analizi / vision (Sonnet 4.6 vision çok iyi)
✅ Code generation (Sonnet 4.6 ve Opus 4.7 codding'in en iyileri)
❌ Real-time low-latency (Groq + Llama daha hızlı)
❌ Ultra-ucuz embedding (OpenAI text-embedding-3-small daha uygun)
❌ Native audio sohbet (OpenAI Realtime gerekli — Anthropic henüz desteklemiyor)
❌ Image generation (Anthropic image üretmez)
▶️ Sıradaki ders
2.3 — Google Gemini Fiyat Şeması. Gemini ailesinin tier yapısı, kontekst caching, 200K-üstü zam tuzağı, ve Vertex AI enterprise pricing.
Frequently Asked Questions
For one-off requests (cache write cost never amortizes). Or when the static portion of the prompt is shorter than the minimum (1024 for Sonnet/Opus, 2048 for Haiku). We'll cover cache hit-rate monitoring in Module 7.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
Module 0: Why Cost, Why Now?
The AI Cost Explosion: Why Token Prices Fell 96% from 2022 to 2026 — Yet Bills Grew 40×
Start LearningModule 0: Why Cost, Why Now?
Unit Economics Vocabulary: COGS, Gross Margin, $/User, Contribution Margin — 9 Financial Concepts Every AI Engineer Must Know
Start LearningModule 0: Why Cost, Why Now?