Skip to content

Token Economy and Cost Optimization

Produce the same quality at 50-90% lower cost using token economy: prompt caching, model tiering, output constraints, batching.

Şükrü Yusuf KAYA
13 min read
Intermediate
Token ekonomisi: maliyet, hız ve kalite üçgeninde optimizasyon
Maliyet optimizasyonunun mottosu
Önce kaliteyi kilitle, sonra maliyeti optimize et. Kalitesiz ucuzluk anlamsızdır.

Token Ekonomisinin 5 Kaldıracı

  1. Prompt caching — Aynı sistem prompt'u tekrarlanıyorsa cache'e al, %75-90 input tasarrufu.
  2. Model katmanlama — Haiku → Sonnet → Opus zinciri.
  3. Output kısıtlama — Gerekenden uzun cevap üretme.
  4. Batch API — Async toplu işlemler %50 indirim.
  5. Kontekst budama — Gereksiz geçmişi kes, RAG ile değiştir.
Aşağıda her birini sırayla işliyoruz.
Maliyet kaldıraçları: caching, tiering, output trimming, batching, context pruning
Token ekonomisinin 5 kaldıracı.
python
# Senaryo: 5,000 günlük istek, ortalama 800 input + 300 output token
# 1) Hep Sonnet
# 2) Haiku ön-filtre + %60 Haiku, %35 Sonnet, %5 Opus
SONNET = (3.0, 15.0) # USD per 1M tokens (input, output)
HAIKU = (0.25, 1.25)
OPUS = (15.0, 75.0)
 
def cost(daily, in_tok, out_tok, mix):
monthly = 0
for model_price, share in mix:
ip, op = model_price
monthly_in = daily*30*in_tok*share/1e6 * ip
monthly_out = daily*30*out_tok*share/1e6 * op
monthly += monthly_in + monthly_out
return round(monthly, 2)
 
senaryo_a = cost(5000, 800, 300, [(SONNET, 1.0)])
senaryo_b = cost(5000, 800, 300, [(HAIKU, 0.60),(SONNET, 0.35),(OPUS, 0.05)])
 
print("Senaryo A (hep Sonnet) :", senaryo_a, "USD/ay")
print("Senaryo B (Haiku/Sonnet/Opus) :", senaryo_b, "USD/ay")
print("Tasarruf :", round(senaryo_a - senaryo_b, 2), "USD/ay")
Aynı kalitede %30-60 maliyet farkı yaratmak gerçekçi.
Cache hit'i izle
Üretimde her çağrının cache hit oranını izle. %50'nin altındaki cache hit oranı genelde sistem prompt'unun değişken parçaları olduğu anlamına gelir; statikleştir.
Boşluk doldur · text
Token ekonomisinin beş kaldıracı: caching, model _____ , output _____ , _____ API ve kontekst budama. Output token genelde input'tan _____ kat pahalıdır.
Quiz

Bu modülü değerlendirme zamanı

Buraya kadar öğrendiklerini quiz ile pekiştir. Süreli, puanlı ve geri bildirimli bir değerlendirmedir.

Quiz'e başla

Frequently Asked Questions

Cache TTL is usually a few minutes. Cache misses can be triggered by single-character changes in the system prompt or differing parameters. Build cache strategy around fully static blocks.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content