İçeriğe geç

Prompt Caching ile %90'a Kadar Maliyet Düşürme

Sabit sistem promptu, büyük few-shot blokları ve uzun belgeleri cache'leyerek input maliyetini büyük oranda düşür.

Şükrü Yusuf KAYA
11 dakikalık okuma
Orta
Prompt cache mimari diyagramı

Cache Anatomisi

Prompt'un hangi bölümünü cache'leyeceğini
cache_control
ile işaretlersin. İlk çağrıda 'cache write' biraz pahalı; sonraki çağrılar bu kısım için %90'a varan tasarruf.
python
resp = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type":"text",
"text": LONG_STABLE_SYSTEM_PROMPT,
"cache_control": {"type":"ephemeral"},
},
],
messages=[{"role":"user","content": user_text}],
)
# response.usage içinde cache_read_input_tokens / cache_creation_input_tokens alanları olur
System prompt cache — en yaygın kullanım.
python
# Cache hit oranı simülasyonu
total_in = 0
cached_in = 0
calls = [
{"input": 1200, "cached": 0}, # ilk çağrı, cache miss
{"input": 1200, "cached": 1100}, # cache hit
{"input": 1200, "cached": 1100},
{"input": 1200, "cached": 1100},
]
for c in calls:
total_in += c["input"]
cached_in += c["cached"]
 
print(f"Cache hit oranı: {cached_in/total_in*100:.1f}%")
Cache hit oranı — yüksek tut, maliyetin sahibi sen ol.
Boşluk doldur · text
Cache _____ flag'i ile sistem promptunun bölümleri cache'lenir. Tipik _____ TTL kısa, dakikalar mertebesindedir. Hit oranını izlemek için response _____ alanı kullanılır.

Sık Sorulan Sorular

Sistem prompt'unun değişen kısımlarını yapısal olarak ayır. Müşteri adını, dil tercihini, bağlamı cache dışına; rolü, kuralları, glossary'yi cache içine koy.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler