Perplexity: Search + LLM Cache Mimarisi

Name: Perplexity: Search + LLM Cache Mimarisi
Author: Şükrü Yusuf KAYA

Perplexity sorgu başına web search + LLM. Web kaynakları her zaman değişiyor. Bu dinamik scenario'da caching nasıl?

Şükrü Yusuf KAYA

11 min read

5/14/2026

Intermediate

Perplexity: Search + LLM Hybrid

Perplexity Google rakibi: arama sonuçları + LLM cevabı + atıflar.

Akış:

User sorgu (örn. "İstanbul'da en iyi pizza")
Web search → 10 alakalı sayfa
Sayfa içerikleri scrape edilir
LLM'e gönderilir: "Şu sayfalara göre cevap ver"
Citations + answer

Caching'in zorluğu: Her sorgu farklı web sonuçları → cache miss kalıcı.

Perplexity'nin Caching Strategi#

Tek statik kısım:

System prompt (~2K) — "Sen bir search asistanısın, citation kullanı"
Output schema (~500)
Tool definitions (eğer var)

Cache'lenir: 1h. Her sorguda hit.

Etki: ~%5-10 token tasarrufu (küçük çünkü ana bilgi dinamik web).

Perplexity'nin Cache Hit Rate#

Tek-turn search query'leri:

System + format: %95+ hit
Web content: %0 hit (her zaman fresh)
Overall (token weighted): ~%10-15 hit

Bu düşük seem ediyor ama LLM call cost'unun büyük kısmı output token'ları (atıflı uzun cevap). Caching minor saving sağlar.

Asıl maliyet azaltma: Quick model (GPT-4o-mini, Claude Haiku) kullanarak. Cache marjinal.

Limit

Perplexity'nin mimarisinde caching'in rolü sınırlı — search-augmented use case'lerde dinamiklik baskın. Bu da bir öğreti: her use case caching'den eşit fayda görmez.

✓ Pekiştir#

Bir Sonraki Derste#

Notion AI workspace caching.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

RAG (Retrieval-Augmented Generation) Architecture

RAG (Retrieval-Augmented Generation) is an architecture that grounds large-language-model answers in chunks retrieved from the organization's own documents or data sources, providing both freshness and citations.

Perplexity: Search + LLM Cache Mimarisi

Perplexity: Search + LLM Hybrid

Perplexity'nin Caching Strategi#

Perplexity'nin Cache Hit Rate#

✓ Pekiştir#

Bir Sonraki Derste#

Yorumlar & Soru-Cevap

Related Content

Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?

Token Ekonomisi 101: Input vs Output Cost Asimetrisi

Context Window Evrimi: 4K'dan 1M'a 5 Yılda Ne Oldu?

Pillar topics this article maps to

RAG (Retrieval-Augmented Generation) Architecture

Subscribe to Newsletter