Perplexity: Search + LLM Cache Mimarisi
Perplexity sorgu başına web search + LLM. Web kaynakları her zaman değişiyor. Bu dinamik scenario'da caching nasıl?
Şükrü Yusuf KAYA
11 min read
IntermediatePerplexity: Search + LLM Hybrid
Perplexity Google rakibi: arama sonuçları + LLM cevabı + atıflar.
Akış:
- User sorgu (örn. "İstanbul'da en iyi pizza")
- Web search → 10 alakalı sayfa
- Sayfa içerikleri scrape edilir
- LLM'e gönderilir: "Şu sayfalara göre cevap ver"
- Citations + answer
Caching'in zorluğu: Her sorgu farklı web sonuçları → cache miss kalıcı.
Perplexity'nin Caching Strategi#
Tek statik kısım:
- System prompt (~2K) — "Sen bir search asistanısın, citation kullanı"
- Output schema (~500)
- Tool definitions (eğer var)
Cache'lenir: 1h. Her sorguda hit.
Etki: ~%5-10 token tasarrufu (küçük çünkü ana bilgi dinamik web).
Perplexity'nin Cache Hit Rate#
Tek-turn search query'leri:
- System + format: %95+ hit
- Web content: %0 hit (her zaman fresh)
- Overall (token weighted): ~%10-15 hit
Bu düşük seem ediyor ama LLM call cost'unun büyük kısmı output token'ları (atıflı uzun cevap). Caching minor saving sağlar.
Asıl maliyet azaltma: Quick model (GPT-4o-mini, Claude Haiku) kullanarak. Cache marjinal.
Limit
Perplexity'nin mimarisinde caching'in rolü sınırlı — search-augmented use case'lerde dinamiklik baskın. Bu da bir öğreti: her use case caching'den eşit fayda görmez.
✓ Pekiştir#
Bir Sonraki Derste#
Notion AI workspace caching.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Context Penceresi Ekonomisi
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Start Learning1. Temeller — Context Penceresi Ekonomisi
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
Start Learning1. Temeller — Context Penceresi Ekonomisi
Context Window Evrimi: 4K'dan 1M'a 5 Yılda Ne Oldu?
Start LearningConnected pillar topics