İçeriğe geç

Token Ekonomisi ve Maliyet Optimizasyonu

Aynı kaliteyi %50-90 daha az maliyetle üretmek için token ekonomisi: prompt caching, model katmanlama, output kısıtlama, batch.

Şükrü Yusuf KAYA
13 dakikalık okuma
Orta
Token ekonomisi: maliyet, hız ve kalite üçgeninde optimizasyon
Maliyet optimizasyonunun mottosu
Önce kaliteyi kilitle, sonra maliyeti optimize et. Kalitesiz ucuzluk anlamsızdır.

Token Ekonomisinin 5 Kaldıracı

  1. Prompt caching — Aynı sistem prompt'u tekrarlanıyorsa cache'e al, %75-90 input tasarrufu.
  2. Model katmanlama — Haiku → Sonnet → Opus zinciri.
  3. Output kısıtlama — Gerekenden uzun cevap üretme.
  4. Batch API — Async toplu işlemler %50 indirim.
  5. Kontekst budama — Gereksiz geçmişi kes, RAG ile değiştir.
Aşağıda her birini sırayla işliyoruz.
Maliyet kaldıraçları: caching, tiering, output trimming, batching, context pruning
Token ekonomisinin 5 kaldıracı.
python
# Senaryo: 5,000 günlük istek, ortalama 800 input + 300 output token
# 1) Hep Sonnet
# 2) Haiku ön-filtre + %60 Haiku, %35 Sonnet, %5 Opus
SONNET = (3.0, 15.0) # USD per 1M tokens (input, output)
HAIKU = (0.25, 1.25)
OPUS = (15.0, 75.0)
 
def cost(daily, in_tok, out_tok, mix):
monthly = 0
for model_price, share in mix:
ip, op = model_price
monthly_in = daily*30*in_tok*share/1e6 * ip
monthly_out = daily*30*out_tok*share/1e6 * op
monthly += monthly_in + monthly_out
return round(monthly, 2)
 
senaryo_a = cost(5000, 800, 300, [(SONNET, 1.0)])
senaryo_b = cost(5000, 800, 300, [(HAIKU, 0.60),(SONNET, 0.35),(OPUS, 0.05)])
 
print("Senaryo A (hep Sonnet) :", senaryo_a, "USD/ay")
print("Senaryo B (Haiku/Sonnet/Opus) :", senaryo_b, "USD/ay")
print("Tasarruf :", round(senaryo_a - senaryo_b, 2), "USD/ay")
Aynı kalitede %30-60 maliyet farkı yaratmak gerçekçi.
Cache hit'i izle
Üretimde her çağrının cache hit oranını izle. %50'nin altındaki cache hit oranı genelde sistem prompt'unun değişken parçaları olduğu anlamına gelir; statikleştir.
Boşluk doldur · text
Token ekonomisinin beş kaldıracı: caching, model _____ , output _____ , _____ API ve kontekst budama. Output token genelde input'tan _____ kat pahalıdır.
Quiz

Bu modülü değerlendirme zamanı

Buraya kadar öğrendiklerini quiz ile pekiştir. Süreli, puanlı ve geri bildirimli bir değerlendirmedir.

Quiz'e başla

Sık Sorulan Sorular

Cache TTL genellikle birkaç dakikadır. Cache miss'i tetikleyen değişiklikler: sistem promptunun bir karakterinin değişmesi, max_tokens / temperature gibi parametrelerin değişmesi, bazı ek başlıklar. Cache stratejini statik bloklar üzerine kur.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler