topiccore

Prompt Caching

Tekrar eden uzun bağlamı cache'le — %50-90 maliyet + latency düşüşü.

2 saat2 kaynak1 önkoşul

Anthropic prompt caching ve OpenAI prompt caching otomatik (ya da cache_control ile manuel). Aynı system prompt + RAG bağlamı + örnekler her istekte yeniden gönderilse bile, ilk seferden sonra cache'den okunur.

Pattern:

Sabit kısım önce (system, examples, knowledge base)
Değişken kısım sonra (user turn)
TTL: 5 dk (Claude) — sık çağrılan endpoint'lerde her zaman sıcak

Önce bunları bil

Context Window

Modelin tek seferde 'hatırlayabildiği' token sayısı. Bilmen şart.

→

Kaynaklar(2)

DDokümantasyon(2)

Anthropic — Prompt caching

· en

freeresmi

OpenAI — Prompt caching

Long-Context Teknikleri

Tüm roadmap'i interaktif görüntüle