Token Economy and Cost Optimization
Produce the same quality at 50-90% lower cost using token economy: prompt caching, model tiering, output constraints, batching.
Şükrü Yusuf KAYA
13 min read
IntermediateMaliyet optimizasyonunun mottosu
Önce kaliteyi kilitle, sonra maliyeti optimize et. Kalitesiz ucuzluk anlamsızdır.
Token Ekonomisinin 5 Kaldıracı
- Prompt caching — Aynı sistem prompt'u tekrarlanıyorsa cache'e al, %75-90 input tasarrufu.
- Model katmanlama — Haiku → Sonnet → Opus zinciri.
- Output kısıtlama — Gerekenden uzun cevap üretme.
- Batch API — Async toplu işlemler %50 indirim.
- Kontekst budama — Gereksiz geçmişi kes, RAG ile değiştir.
Aşağıda her birini sırayla işliyoruz.
python
# Senaryo: 5,000 günlük istek, ortalama 800 input + 300 output token# 1) Hep Sonnet# 2) Haiku ön-filtre + %60 Haiku, %35 Sonnet, %5 OpusSONNET = (3.0, 15.0) # USD per 1M tokens (input, output)HAIKU = (0.25, 1.25)OPUS = (15.0, 75.0) def cost(daily, in_tok, out_tok, mix): monthly = 0 for model_price, share in mix: ip, op = model_price monthly_in = daily*30*in_tok*share/1e6 * ip monthly_out = daily*30*out_tok*share/1e6 * op monthly += monthly_in + monthly_out return round(monthly, 2) senaryo_a = cost(5000, 800, 300, [(SONNET, 1.0)])senaryo_b = cost(5000, 800, 300, [(HAIKU, 0.60),(SONNET, 0.35),(OPUS, 0.05)]) print("Senaryo A (hep Sonnet) :", senaryo_a, "USD/ay")print("Senaryo B (Haiku/Sonnet/Opus) :", senaryo_b, "USD/ay")print("Tasarruf :", round(senaryo_a - senaryo_b, 2), "USD/ay")Aynı kalitede %30-60 maliyet farkı yaratmak gerçekçi.
Cache hit'i izle
Üretimde her çağrının cache hit oranını izle. %50'nin altındaki cache hit oranı genelde sistem prompt'unun değişken parçaları olduğu anlamına gelir; statikleştir.
Boşluk doldur · text
Token ekonomisinin beş kaldıracı: caching, model _____ , output _____ , _____ API ve kontekst budama. Output token genelde input'tan _____ kat pahalıdır.Quiz
Bu modülü değerlendirme zamanı
Buraya kadar öğrendiklerini quiz ile pekiştir. Süreli, puanlı ve geri bildirimli bir değerlendirmedir.
Quiz'e başlaFrequently Asked Questions
Cache TTL is usually a few minutes. Cache misses can be triggered by single-character changes in the system prompt or differing parameters. Build cache strategy around fully static blocks.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...