Skip to content

Context is the New System Prompt: Paradigma Değişimi

RAG mı, fine-tuning mi, prompt caching mi? Üç teknik, üç farklı problemi çözer. Bu derste karar matrisini, hibrit mimarileri ve neden 2026'da 'context engineering' başlı başına bir disiplin olduğunu göreceksin.

Şükrü Yusuf KAYA
15 min read
Intermediate

Context is the New System Prompt

2024'te Anthropic, prompt caching mekanizmasını açıkladığında, Twitter'da bir cümle çok dolaştı:
"Context is the new system prompt." — Anthropic mühendisleri
Bu cümle bir paradigma değişiminin ilanıydı. Çünkü 2023'e kadar "system prompt" denen şey kısacık birkaç paragraftı: "Sen yardımcı bir asistansın, kibarlık ve doğruluğa dikkat et..." filan.
2026'da artık system prompt 200K token: tüm şirket bilgi bankası, tool tanımları, geçmiş diyalog, kullanıcının profili, dosyaları... hepsi.
Bu, context engineering'i mühendislik disiplini olarak doğurdu.

"Context Engineering" Nedir, Prompt Engineering'den Farkı?#

Andrej Karpathy'nin tanımı şöyle:
"Prompt engineering, modeli doğru yanıta yönlendirme sanatı. Context engineering, modele hangi bilgileri sunmak zorunda olduğunu mühendislik disiplini olarak tasarlama."
İkisi tamamlayıcı, rakip değil.
BoyutPrompt EngineeringContext Engineering
Odak"Ne yazayım?""Hangi bilgiyi sunayım?"
BirimCümleler, talimatlarTokenlar, bütçe, katmanlar
ÖlçütCevap kalitesiDoğruluk × maliyet × latency
AraçFew-shot, CoT, personaRAG, caching, summarization, chunking
SahibiDomain expertAI Engineer
İki Disiplin, Bir Mühendis
Prompt engineering "ne diyorum" üzerine, context engineering "nereyi yetiştiriyorum" üzerine. Bir LLM uygulaması ikisini birden yapmak zorunda — ama 2024'e kadar literatür sadece birincisine odaklanmıştı.

Üç Stratejik Seçenek: RAG, Fine-Tuning, Caching#

LLM'e dış bilgi sokmanın üç yolu var. Çoğu durumda ikisini ya da üçünü birden kullanırsın ama temel mantığı ayırt etmek şart.
Ne yapar? Sorguya göre veri tabanından alakalı belgeleri çek, prompt'a koy.
Güçlü yanları:
  • Sınırsız bilgi kaynağı (vector DB'de 1B+ doc tutabilirsin)
  • Bilgi güncellendiğinde model değişmez, sadece DB
  • Citation/atıf kolay (hangi doc'tan çıktı belli)
Zayıf yanları:
  • Retrieval kalitesi her şey — kötü recall = yanlış cevap
  • Chunking sanat değil teknik, kuralları öğrenmek lazım (Modül 7)
  • Her sorgu için retrieval latency'si
Maliyeti: Vector DB infra (Pinecone, Qdrant, pgvector) + embedding cost + retrieved token cost

Karar Matrisi: Hangi Senaryo Hangi Stratejiyi İster?#

SenaryoRAGFine-TuneCachingTavsiye
10.000 müşteri dökümanı, "şirket hakkında" soruları⚠️RAG
50 sayfa ürün dökümantasyonu, her sorgu hepsini kullanıyor⚠️Caching
Şirket-spesifik jargon/ton ile yazmaFine-tune
Yapısal output formatı (JSON şeması) zorlama⚠️Structured output / Schema
Hukuki içtihat aramada gerçek-zamanlı cevap⚠️RAG + caching (tool defs)
Sürekli kullanılan 100K token codebase'i Q&A⚠️Caching
Çok dilli ürün desteği (TR/EN/AR), aynı model⚠️Fine-tune ton + caching context
Her sorguda farklı 50 random docRAG (caching çalışmaz)

Hibrit Mimari — En Yaygın Pattern#

Pratikte saf birini değil, kombinasyonu kullanırsın. En yaygın 4 pattern:

1. RAG + Caching (Tool definitions cache'le)#

[Cache: system + tool_defs (statik)] → [Retrieve docs (dinamik)] → [User query]
Tool tanımlarını ve system prompt'u cache'le. Her sorguda yeni retrieved doc'ları dinamik olarak ekle. Cache hit rate %90+, RAG esnekliği korunur.

2. Cache + Fine-Tuned Model#

Fine-tuned Sonnet (TR jargonu) + Cache (şirket dokümanı 50K)
Modeli Türkçe e-ticaret jargonunda fine-tune et. Cache'e şirketin spesifik bilgilerini koy. Domain'e özel asistan, ucuz maliyet.

3. Caching + Long Context (Saf statik)#

1M context Gemini + Cache (kod tabanı 500K)
Tüm kod tabanını cache'e koy. Sorgular cache hit'le geliyor. Kod asistanları için (Cursor, Claude Code) baskın mimari.

4. Multi-Level Cache (5dk + 1saat)#

1saat cache: system + tools 5dk cache: conversation history (büyüyen) Dynamic: user query
Anthropic'te aynı sorguda iki TTL kullanılabilir. Sohbet uzadıkça eski parça 1saat cache'te kalır, son turn 5dk'ta.
Modül Yol Haritası
Modül 7'de RAG + caching'i, Modül 8'de multi-turn caching'i derinleştireceğiz. Şimdilik karar matrisini ezberle: caching statik bilgi içindir.

Pratik Karar: "Cache mi RAG mi?" 3 Soruyla Çöz#

Bir özellik tasarlarken kendine sor:
1. Bilgim ne kadar büyük?
  • < 200K token → cache'lenebilir
  • 200K-1M → tek seferde, ama pahalı; düşün
  • > 1M → RAG zorunlu
2. Bilgim ne sıklıkta tekrar ediliyor?
  • %95+ sorgu aynı bilgiyi kullanıyor → cache
  • %50-95 → hibrit (tool/system cache + RAG retrieve)
  • %< 50 → RAG
3. Bilgim ne sıklıkta güncelleniyor?
  • Statik (haftalık-aylık) → cache OK, TTL hassasiyetine dikkat
  • Saatlik → cache OK ama TTL dikkatli
  • Anlık (anlık veri, fiyat, stok) → cache YAPMA, dinamik tut

Mini Egzersiz — Karar Adımları#

Boşluk doldur · text
Bir hastane için "ilaç etkileşimi" asistanı kuruyorsun:
- Bilgi büyüklüğü: 50K sayfa ilaç prospektüsü
- Her sorgu birkaç ilaç sorar
- İlaç bilgisi haftalık güncelleniyor

Strateji: ____ kullanırsın çünkü bilgi büyüklüğü çok ____ (cache'e sığmaz),
sorgular ____ değil (her sorgu farklı ilaç), ve cache TTL'i ____ güncellemeyle uyumsuz.

✓ Pekiştir#

Bir Sonraki Derste#

Artık teorik temel sağlam. Bir sonraki ders hands-on lab — aynı prompt'u 100 kez Claude API'ye gönderip cache ON vs OFF maliyet farkını gerçek dolar cinsinden ölçeceğiz. Hesap makinen ve API key'in hazır olsun. 🧪

Frequently Asked Questions

Hayır. RAG'ın sınırsız ölçeklenebilirliği var (10M+ doc), cache'in context window sınırı var (~200K-1M). Cache, RAG'ın 'sık kullanılan üst katmanı' gibi düşünülmeli — Modül 7'de detaylanacak.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content

Connected pillar topics

Pillar topics this article maps to