Fine-tuning yine yapmalı mıyım?

Bilgi sokmak için: hayır. Davranış/format/jargon değiştirmek için: belki. Modern öneri: 'in-context learning + caching' önce, fine-tuning sonra son çare.

Hibrit mimari karmaşık değil mi?

İlk başta evet ama herkes oraya gidiyor. Modül 8'de multi-turn caching, Modül 9'da agentic caching, Modül 11'de full production stack göreceğiz — hepsi hibrit.

Context is the New System Prompt: Paradigma Değişimi

Name: Context is the New System Prompt: Paradigma Değişimi
Author: Şükrü Yusuf KAYA

RAG mı, fine-tuning mi, prompt caching mi? Üç teknik, üç farklı problemi çözer. Bu derste karar matrisini, hibrit mimarileri ve neden 2026'da 'context engineering' başlı başına bir disiplin olduğunu göreceksin.

Şükrü Yusuf KAYA

15 min read

5/14/2026

Intermediate

Context is the New System Prompt

2024'te Anthropic, prompt caching mekanizmasını açıkladığında, Twitter'da bir cümle çok dolaştı:

"Context is the new system prompt." — Anthropic mühendisleri

Bu cümle bir paradigma değişiminin ilanıydı. Çünkü 2023'e kadar "system prompt" denen şey kısacık birkaç paragraftı: "Sen yardımcı bir asistansın, kibarlık ve doğruluğa dikkat et..." filan.

2026'da artık system prompt 200K token: tüm şirket bilgi bankası, tool tanımları, geçmiş diyalog, kullanıcının profili, dosyaları... hepsi.

Bu, context engineering'i mühendislik disiplini olarak doğurdu.

"Context Engineering" Nedir, Prompt Engineering'den Farkı?#

Andrej Karpathy'nin tanımı şöyle:

"Prompt engineering, modeli doğru yanıta yönlendirme sanatı. Context engineering, modele hangi bilgileri sunmak zorunda olduğunu mühendislik disiplini olarak tasarlama."

İkisi tamamlayıcı, rakip değil.

Boyut	Prompt Engineering	Context Engineering
Odak	"Ne yazayım?"	"Hangi bilgiyi sunayım?"
Birim	Cümleler, talimatlar	Tokenlar, bütçe, katmanlar
Ölçüt	Cevap kalitesi	Doğruluk × maliyet × latency
Araç	Few-shot, CoT, persona	RAG, caching, summarization, chunking
Sahibi	Domain expert	AI Engineer

İki Disiplin, Bir Mühendis

Prompt engineering "ne diyorum" üzerine, context engineering "nereyi yetiştiriyorum" üzerine. Bir LLM uygulaması ikisini birden yapmak zorunda — ama 2024'e kadar literatür sadece birincisine odaklanmıştı.

Üç Stratejik Seçenek: RAG, Fine-Tuning, Caching#

LLM'e dış bilgi sokmanın üç yolu var. Çoğu durumda ikisini ya da üçünü birden kullanırsın ama temel mantığı ayırt etmek şart.

Ne yapar? Sorguya göre veri tabanından alakalı belgeleri çek, prompt'a koy.

Güçlü yanları:

Sınırsız bilgi kaynağı (vector DB'de 1B+ doc tutabilirsin)
Bilgi güncellendiğinde model değişmez, sadece DB
Citation/atıf kolay (hangi doc'tan çıktı belli)

Zayıf yanları:

Retrieval kalitesi her şey — kötü recall = yanlış cevap
Chunking sanat değil teknik, kuralları öğrenmek lazım (Modül 7)
Her sorgu için retrieval latency'si

Maliyeti: Vector DB infra (Pinecone, Qdrant, pgvector) + embedding cost + retrieved token cost

Karar Matrisi: Hangi Senaryo Hangi Stratejiyi İster?#

Senaryo	RAG	Fine-Tune	Caching	Tavsiye
10.000 müşteri dökümanı, "şirket hakkında" soruları	✅	❌	⚠️	RAG
50 sayfa ürün dökümantasyonu, her sorgu hepsini kullanıyor	⚠️	❌	✅	Caching
Şirket-spesifik jargon/ton ile yazma	❌	✅	❌	Fine-tune
Yapısal output formatı (JSON şeması) zorlama	❌	⚠️	❌	Structured output / Schema
Hukuki içtihat aramada gerçek-zamanlı cevap	✅	❌	⚠️	RAG + caching (tool defs)
Sürekli kullanılan 100K token codebase'i Q&A	⚠️	❌	✅	Caching
Çok dilli ürün desteği (TR/EN/AR), aynı model	⚠️	✅	✅	Fine-tune ton + caching context
Her sorguda farklı 50 random doc	✅	❌	❌	RAG (caching çalışmaz)

Hibrit Mimari — En Yaygın Pattern#

Pratikte saf birini değil, kombinasyonu kullanırsın. En yaygın 4 pattern:

1. RAG + Caching (Tool definitions cache'le)#

[Cache: system + tool_defs (statik)] → [Retrieve docs (dinamik)] → [User query]

Tool tanımlarını ve system prompt'u cache'le. Her sorguda yeni retrieved doc'ları dinamik olarak ekle. Cache hit rate %90+, RAG esnekliği korunur.

2. Cache + Fine-Tuned Model#

Fine-tuned Sonnet (TR jargonu) + Cache (şirket dokümanı 50K)

Modeli Türkçe e-ticaret jargonunda fine-tune et. Cache'e şirketin spesifik bilgilerini koy. Domain'e özel asistan, ucuz maliyet.

3. Caching + Long Context (Saf statik)#

1M context Gemini + Cache (kod tabanı 500K)

Tüm kod tabanını cache'e koy. Sorgular cache hit'le geliyor. Kod asistanları için (Cursor, Claude Code) baskın mimari.

4. Multi-Level Cache (5dk + 1saat)#

1saat cache: system + tools
5dk cache: conversation history (büyüyen)
Dynamic: user query

Anthropic'te aynı sorguda iki TTL kullanılabilir. Sohbet uzadıkça eski parça 1saat cache'te kalır, son turn 5dk'ta.

Modül Yol Haritası

Modül 7'de RAG + caching'i, Modül 8'de multi-turn caching'i derinleştireceğiz. Şimdilik karar matrisini ezberle: caching statik bilgi içindir.

Pratik Karar: "Cache mi RAG mi?" 3 Soruyla Çöz#

Bir özellik tasarlarken kendine sor:

1. Bilgim ne kadar büyük?

< 200K token → cache'lenebilir
200K-1M → tek seferde, ama pahalı; düşün
> 1M → RAG zorunlu

2. Bilgim ne sıklıkta tekrar ediliyor?

%95+ sorgu aynı bilgiyi kullanıyor → cache
%50-95 → hibrit (tool/system cache + RAG retrieve)
%< 50 → RAG

3. Bilgim ne sıklıkta güncelleniyor?

Statik (haftalık-aylık) → cache OK, TTL hassasiyetine dikkat
Saatlik → cache OK ama TTL dikkatli
Anlık (anlık veri, fiyat, stok) → cache YAPMA, dinamik tut

Mini Egzersiz — Karar Adımları#

Boşluk doldur · text

Bir hastane için "ilaç etkileşimi" asistanı kuruyorsun:
- Bilgi büyüklüğü: 50K sayfa ilaç prospektüsü
- Her sorgu birkaç ilaç sorar
- İlaç bilgisi haftalık güncelleniyor

Strateji: ____ kullanırsın çünkü bilgi büyüklüğü çok ____ (cache'e sığmaz),
sorgular ____ değil (her sorgu farklı ilaç), ve cache TTL'i ____ güncellemeyle uyumsuz.

✓ Pekiştir#

Bir Sonraki Derste#

Artık teorik temel sağlam. Bir sonraki ders hands-on lab — aynı prompt'u 100 kez Claude API'ye gönderip cache ON vs OFF maliyet farkını gerçek dolar cinsinden ölçeceğiz. Hesap makinen ve API key'in hazır olsun. 🧪

Frequently Asked Questions

Hayır. RAG'ın sınırsız ölçeklenebilirliği var (10M+ doc), cache'in context window sınırı var (~200K-1M). Cache, RAG'ın 'sık kullanılan üst katmanı' gibi düşünülmeli — Modül 7'de detaylanacak.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

Prompt and Context Engineering

Prompt engineering is the applied discipline of designing instructions, examples, context and output controls so that an LLM produces consistent, accurate and cost-efficient outputs.