İçeriğe geç
Tüm roadmap'e dön
topiccore

Prompt Caching

Tekrar eden uzun bağlamı cache'le — %50-90 maliyet + latency düşüşü.

2 saat2 kaynak1 önkoşul

Anthropic prompt caching ve OpenAI prompt caching otomatik (ya da cache_control ile manuel). Aynı system prompt + RAG bağlamı + örnekler her istekte yeniden gönderilse bile, ilk seferden sonra cache'den okunur.

Pattern:

  • Sabit kısım önce (system, examples, knowledge base)
  • Değişken kısım sonra (user turn)
  • TTL: 5 dk (Claude) — sık çağrılan endpoint'lerde her zaman sıcak

Önce bunları bil

Kaynaklar(2)