Skip to content

Perplexity: Search + LLM Cache Mimarisi

Perplexity sorgu başına web search + LLM. Web kaynakları her zaman değişiyor. Bu dinamik scenario'da caching nasıl?

Şükrü Yusuf KAYA
11 min read
Intermediate

Perplexity: Search + LLM Hybrid

Perplexity Google rakibi: arama sonuçları + LLM cevabı + atıflar.
Akış:
  1. User sorgu (örn. "İstanbul'da en iyi pizza")
  2. Web search → 10 alakalı sayfa
  3. Sayfa içerikleri scrape edilir
  4. LLM'e gönderilir: "Şu sayfalara göre cevap ver"
  5. Citations + answer
Caching'in zorluğu: Her sorgu farklı web sonuçları → cache miss kalıcı.

Perplexity'nin Caching Strategi#

Tek statik kısım:
  • System prompt (~2K) — "Sen bir search asistanısın, citation kullanı"
  • Output schema (~500)
  • Tool definitions (eğer var)
Cache'lenir: 1h. Her sorguda hit.
Etki: ~%5-10 token tasarrufu (küçük çünkü ana bilgi dinamik web).

Perplexity'nin Cache Hit Rate#

Tek-turn search query'leri:
  • System + format: %95+ hit
  • Web content: %0 hit (her zaman fresh)
  • Overall (token weighted): ~%10-15 hit
Bu düşük seem ediyor ama LLM call cost'unun büyük kısmı output token'ları (atıflı uzun cevap). Caching minor saving sağlar.
Asıl maliyet azaltma: Quick model (GPT-4o-mini, Claude Haiku) kullanarak. Cache marjinal.
Limit
Perplexity'nin mimarisinde caching'in rolü sınırlı — search-augmented use case'lerde dinamiklik baskın. Bu da bir öğreti: her use case caching'den eşit fayda görmez.

✓ Pekiştir#

Bir Sonraki Derste#

Notion AI workspace caching.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content

Connected pillar topics

Pillar topics this article maps to