CAG: Cache-Augmented Generation — RAG'ın Alternatifi mi?
2024'te ortaya çıkan CAG (Cache-Augmented Generation) yaklaşımı: tüm bilgiyi context'e koy ve cache'le, retrieval gerek değil. RAG'ı tamamen değiştirebilir mi?
Şükrü Yusuf KAYA
12 dakikalık okuma
OrtaCAG: Cache-Augmented Generation
2024'te akademide ortaya çıkan bir paradigma: Cache-Augmented Generation (CAG).
"Retrieval gerekli mi? Eğer tüm bilgi context'e sığıyorsa, neden retrieve edelim? Cache'le ve kullan."
Paper: "Don't Do RAG: Cache the Knowledge Instead" (Aralık 2024).
CAG Yaklaşımı#
[Statik: tüm KB cache'lenmiş (50K-1M)] [User query (dinamik)] ↓ LLM (cache hit ile bilgi context'te)
RAG'dan farkı: Retrieval yok. Vector DB yok. Embedding yok. Sadece prompt caching.
CAG Avantajları#
- Latency — retrieval yok, ekstra round-trip yok
- Architecture simplicity — vector DB infra'sı yok
- Quality — model tüm bilgiyi görür, "missed retrieval" yok
- Citation — model context'i okur, doğru atıf yapar
CAG Dezavantajları#
- Context limit — 200K-2M cap
- Cost — büyük context her zaman maliyetli (cache olsa da)
- Update friction — KB değişince tüm cache yeniden inşa
- Context rot — 1M'da reasoning bozulur (Modül 6)
CAG Ne Zaman Mantıklı?#
| Durum | CAG mantıklı mı? |
|---|---|
| KB < 200K token | ✅ Evet (Claude/GPT sığar) |
| KB 200K-1M | ⚠️ Gemini ile mümkün, pahalı |
| KB > 1M | ❌ Sığmaz, RAG zorunlu |
| Bilgi statik (haftalık-aylık update) | ✅ |
| Bilgi anlık güncellenir | ❌ Cache stale olur |
| Her sorgu aynı bilgi alt-kümesini kullanır | ⚠️ RAG da iyi |
| Her sorgu farklı alt-küme | ❌ Cache miss yüksek |
CAG vs RAG vs Hybrid Karşılaştırma#
Aynı use case: 50K KB, 1000 sorgu/gün:
| Strateji | Setup Karmaşıklık | Aylık Cost | Avg Latency | Doğruluk |
|---|---|---|---|---|
| Saf RAG | Yüksek (vector DB) | $400 (DB + LLM) | 3.5s | %88 |
| CAG | Düşük (sadece cache) | $200 (LLM cache) | 2.0s | %94 |
| Hybrid | Orta | $250 (LLM + small DB) | 2.2s | %95 |
50K KB için CAG çok güçlü. Bilgi büyüdükçe RAG/hybrid'a kayar.
Modern Best Practice
Pratik öneri: Yeni proje başlatırken önce CAG'yı dene. Eğer KB büyürse hybrid'a geç. RAG'ı sadece >1M veya çok dinamik bilgi varsa kullan.
Sınırlar: CAG Ne Zaman Çatlar?#
- KB > context limit — 200K cap'i aştığında
- Multi-tenant bilgi izolasyonu — her kullanıcının kendi KB'si varsa cache pool patlamaya başlar
- Gerçek-zamanlı update — fiyat, stok, anlık veri için TTL eviction yetersiz
- Reasoning depth — context rot ile reasoning bozulur (Modül 6 Ders 40)
Bu durumlarda RAG veya hybrid şart.
✓ Pekiştir#
Bir Sonraki Derste#
Hot/cold cache pattern — frequently-retrieved doc'ları cache'lemek + long-tail için RAG.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
1. Temeller — Context Penceresi Ekonomisi
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Öğrenmeye Başla1. Temeller — Context Penceresi Ekonomisi
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
Öğrenmeye Başla1. Temeller — Context Penceresi Ekonomisi