Anthropic Fiyat Şeması: Prompt Caching'in 90% İndirim Sihri ve Extended Thinking Faturası
Claude Haiku/Sonnet/Opus fiyat tablosu, prompt caching'in 1.25× yazma / 0.10× okuma matematiği, extended thinking'in gizli output maliyeti, Batch API ve Anthropic'in Türkçe için neden en ekonomik seçim olduğu.
Şükrü Yusuf KAYA
20 dakikalık okuma
Orta🎭 Anthropic'in fiyat felsefesi
Anthropic OpenAI'dan farklı bir yol seçti: basit standart fiyat + güçlü cache kontrolü. Bu, mühendise daha fazla optimizasyon alanı verir. Kursta en çok kullanacağımız sağlayıcının fiyat anatomisini açıyoruz.
Claude ailesi fiyat tablosu (Mayıs 2026)#
| Model | Input ($/M) | Output ($/M) | Context | Önerilen kullanım |
|---|---|---|---|---|
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | Hızlı sınıflandırma, basit chatbot, etiketleme |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K (500K enterprise) | RAG, agent, çoğu üretim iş yükü |
| Claude Opus 4.7 | $15.00 | $75.00 | 200K | Karmaşık reasoning, kritik kararlar |
| Claude Sonnet 3.5 (legacy) | $3.00 | $15.00 | 200K | Backward compat |
| Claude Haiku 3.5 (legacy) | $0.80 | $4.00 | 200K | Backward compat |
Notlar#
⚠️ Haiku 4.5 önceki Haiku 3.5'ten pahalı (0.80). Sebep: Haiku 4.5 multimodal + tool use + extended thinking — neredeyse Sonnet seviyesinde yetenek.
⚠️ Output her zaman 5× input. Bu, prefill/decode asimetrisinin Anthropic versiyonu (Ders 1.4).
Anthropic Prompt Caching — Matematiği#
Anthropic'in caching mekanizması, OpenAI'dan radikal farklı:
| İşlem | Çarpan |
|---|---|
| Cache yazma (ilk istek) | 1.25× normal input |
| Cache okuma (sonraki istekler) | 0.10× normal input ⭐ |
Sonnet 4.6 için somut sayılar#
| İşlem | $/M token |
|---|---|
| Standart input | $3.00 |
| Cache write | $3.75 |
| Cache read | $0.30 ⭐ |
Cache hit eşiğin = aynı içeriği 4'üncü kez gönderdiğinde başa baş. Sonrası tamamen kâr.
Matematik#
Sabit prefix 10K token, 100 istek, hepsi aynı prefix kullanıyor. NO CACHE: 100 × 10K × $3/M = $3.00 CACHE: 1 × 10K × $3.75/M = $0.0375 (yazma) 99 × 10K × $0.30/M = $0.297 (okumalar) TOPLAM: $0.3345 ← %89 tasarruf 🎉
📊 90% indirim mucizesi
Aynı sistem prompt'unu N kere gönderdiğinde toplam maliyet ≈ standardın 1/10'u. Bu kursta öğreneceğin en güçlü tek teknik. Bir RAG chatbot'unu prompt caching ile %75-90 ucuzlatmak rutin.
TTL — 5 dakika mı, 1 saat mi?#
Anthropic'in iki TTL seçeneği var:
| TTL | Cache write fiyat | Cache read fiyat | Ne zaman? |
|---|---|---|---|
| 5 dakika (standart) | 1.25× | 0.10× | Yüksek trafik, sık tekrar |
| 1 saat (premium) | 2× normal | 0.10× | Düşük trafik ama her saat sürecek |
Karar nasıl verilir?#
5 dakika TTL:
- Yazma maliyeti yarı yarıya az
- Ama her 5 dakikada cache resetlenir
- Trafik yüksekse (10+ istek/dk) ideal
1 saat TTL:
- Yazma 2 katı pahalı
- Ama 60 dakika dayanır
- 5dk TTL'de 12 kez yeniden yazma vs 1h TTL'de 1 kez yazma
Maliyet karşılaştırma#
100 istek/saat × 10K prefix token, hangisi ucuz?
5dk TTL: - 5dk'da 1 yazma + (~8 cache read) → 12 yazma + 88 read /saat - Yazma: 12 × 10K × $3.75/M = $0.45 - Okuma: 88 × 10K × $0.30/M = $0.264 - TOPLAM: $0.714 /saat 1h TTL: - 1 yazma + 99 read /saat - Yazma: 1 × 10K × $6.00/M = $0.06 (2× normal) - Okuma: 99 × 10K × $0.30/M = $0.297 - TOPLAM: $0.357 /saat ← daha ucuz
100 istek/saat üstünde 1h TTL daha ekonomik. 5dk TTL yüksek-trafik (1000+ istek/saat) için.
Cache breakpoint'leri — Anthropic'in özel mekanizması#
Anthropic, prompt'ta maksimum 4 cache breakpoint koymana izin veriyor. Bu breakpoint'ler "buraya kadar cache'le, sonraki dinamik" demek.
messages = [ { "role": "system", "content": [ {"type": "text", "text": "Genel sistem prompt..."}, {"type": "text", "text": "Statik few-shot örnekler...", "cache_control": {"type": "ephemeral"}}, # ← BREAKPOINT 1 {"type": "text", "text": "Statik FAQ ve kurallar...", "cache_control": {"type": "ephemeral"}}, # ← BREAKPOINT 2 ], }, { "role": "user", "content": [ {"type": "text", "text": dynamic_user_question} ], }, ]
Bu mimari ile:
- Breakpoint 1'e kadar cache'lenir (genel system + few-shot)
- Breakpoint 2'ye kadar cache'lenir (FAQ eklendiğinde)
- Kullanıcı sorusu her zaman dinamik
Modül 7'de tüm pattern'i derinlemesine işleyeceğiz.
Extended Thinking — Görünmez Output Maliyeti#
Claude 3.7+ ailesinde parametresi var. Modele "düşünme bütçesi" ver.
thinkingresponse = client.messages.create( model="claude-sonnet-4-6", thinking={"type": "enabled", "budget_tokens": 2000}, messages=[...], ) # response.usage.cache_creation_input_tokens # response.usage.cache_read_input_tokens # response.usage.input_tokens ← görünür input # response.usage.output_tokens ← görünür output # response.usage.thinking_tokens ← THINKING (output fiyatından)
Thinking maliyeti#
Thinking token'ları output fiyatı ile faturalanır. Sonnet 4.6'da $15/M output.
| budget_tokens | Thinking ortalama | Ekstra maliyet/istek |
|---|---|---|
| Disabled | 0 | $0 |
| 1024 (min) | ~600 | $0.009 |
| 2000 | ~1.500 | $0.0225 |
| 5000 | ~3.500 | $0.0525 |
| 16000 (max) | ~12.000 | $0.180 |
Karar matrisi#
| Görev | Thinking gerekli? |
|---|---|
| Basit sınıflandırma | ❌ Disable |
| Sıradan chatbot | ❌ Disable |
| RAG cevap | ❌ Disable |
| Multi-step planning | ✅ 1024-2000 |
| Karmaşık matematik | ✅ 2000-5000 |
| Hukuki/finansal analiz | ✅ 5000+ |
| Code refactoring | ✅ 2000-5000 |
Default'un disabled olsun. Sadece gerektiğinde aç. Modül 14'te agent'larda thinking budget yönetimini detaylı işleyeceğiz.
💸 Thinking bütçe katili
16K thinking budget × 24.000/ay** ekstra fatura. Birçok ekip thinking'i "sadece enable et" demekle bunu fark etmiyor. Always set budget_tokens explicitly.
Anthropic Batch API — %50 İndirim#
OpenAI'a benzer Batch API: 24h SLA, %50 indirim, async iş yükleri için ideal.
| Model | Standart In/Out | Batch In/Out |
|---|---|---|
| Haiku 4.5 | 5 | 2.50 |
| Sonnet 4.6 | 15 | 7.50 |
| Opus 4.7 | 75 | 37.50 |
Batch + Caching aynı anda çalışır mı?#
Evet — Anthropic batch'te cache'i destekliyor. Yani %50 indirim + cache %90 = toplam %95 indirim.
Senaryo: 10K async sorgu, hepsi aynı 5K sistem prompt'unu paylaşıyor Standart fiyatla: 10K × (5K + 200) × $3/M + 10K × 500 × $15/M = $156 + $75 = $231 Batch + Cache ile: 10K × (5K cache read + 200 in) × ($0.30/M cache + $1.50/M batch) + 10K × 500 × $7.50/M ≈ $15 + $9 + $37.50 = $61.50 Tasarruf: %73 🎉
Anthropic'in Türkçe avantajı#
Ders 1.2'de gördük: Claude tokenizer'ı Türkçe için en verimli. Birleştirelim:
| Faktör | Etki |
|---|---|
| Tokenizer verimi | -%15-25 token (vs Llama/Mistral) |
| Prompt cache (90% indirim) | -%80 (aynı prefix) |
| Batch API (50% indirim) | -%50 async iş yükü için |
Bu üçü birlikte: Türkçe ağırlıklı bir SaaS'ı diğer sağlayıcılarla karşılaştırınca, Anthropic ile %50-80 daha ucuza çalıştırmak mümkün — kalite kaybı sıfır.
Bu kursun "neden çoğu örnekte Claude?" cevabı.
Gerçek vaka: Türkçe müşteri hizmetleri agent'ı#
100K istek/ay, sistem prompt 4K (Türkçe), ortalama soru 200 token, ortalama cevap 400 token.
GPT-5 ile#
Input: 100K × 4.200 × $10/M = $4.200 Output: 100K × 400 × $30/M = $1.200 Cached input (~50% hit): -$1.050 TOPLAM: ~$4.350/ay
Sonnet 4.6 + cache (1h TTL) ile#
İlk istek (yazma): 1 × 4K × $3.75/M = $0.015 ~99K read'ler: 99K × 4K × $0.30/M = $118.80 Dinamik input: 100K × 200 × $3/M = $60 Output: 100K × 400 × $15/M = $600 TOPLAM: ~$779/ay
779 = %82 tasarruf. Yıllık $42.852 fark. Üç değişiklikle: model swap + cache aktif + breakpoint ayarı.
Anthropic'i ne zaman seçmeli?#
✅ Türkçe ağırlıklı iş yükü (tokenizer avantajı)
✅ Aynı sistem prompt sık tekrarlanıyor (cache 90% indirim)
✅ Tool use yoğun agent'lar (Claude 4.x tool use'da sınıfın en iyisi)
✅ Doküman analizi / vision (Sonnet 4.6 vision çok iyi)
✅ Code generation (Sonnet 4.6 ve Opus 4.7 codding'in en iyileri)
❌ Real-time low-latency (Groq + Llama daha hızlı)
❌ Ultra-ucuz embedding (OpenAI text-embedding-3-small daha uygun)
❌ Native audio sohbet (OpenAI Realtime gerekli — Anthropic henüz desteklemiyor)
❌ Image generation (Anthropic image üretmez)
▶️ Sıradaki ders
2.3 — Google Gemini Fiyat Şeması. Gemini ailesinin tier yapısı, kontekst caching, 200K-üstü zam tuzağı, ve Vertex AI enterprise pricing.
Sık Sorulan Sorular
Tek-seferlik isteklerde (cache write maliyeti hiç amortize olmaz). Veya prompt'un sabit kısmı 1024 tokendan kısaysa cache eligibility limitine takılır (Sonnet/Opus için 1024 minimum, Haiku için 2048). Modül 7'de cache hit-rate'i izleme yöntemini göstereceğiz.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Modül 0: Neden Maliyet, Neden Şimdi?
AI Maliyet Patlaması: 2022'den 2026'ya Token Fiyatları Neden %96 Düştü Ama Faturalar Neden 40 Kat Arttı?
Öğrenmeye BaşlaModül 0: Neden Maliyet, Neden Şimdi?
Birim Ekonomisi Sözlüğü: COGS, Gross Margin, $/User, Contribution Margin — Mühendisin Bilmesi Gereken 9 Finansal Kavram
Öğrenmeye BaşlaModül 0: Neden Maliyet, Neden Şimdi?