Context'in 6 Katmanı: Bir LLM Çağrısının Anatomisi
Production LLM uygulamalarında context 6 standart katmandan oluşur: system, tools, RAG, history, user query, output schema. Bu derste her katmanın amacını, token bütçesini ve caching açısından önemini öğreneceksin.
Şükrü Yusuf KAYA
14 min read
IntermediateContext'in 6 Katmanı
Bir LLM çağrısının context'i kaotik bir bilgi yığını değil; mühendis tasarımıyla 6 katmanlı yapı. Her katmanın amacı, davranışı ve caching karakteristiği farklı.
Katman 1 — System Prompt#
Amacı: Modelin kim olduğunu ve nasıl davranacağını söyler.
İçerir:
- Persona ("Sen bir bankacılık asistanısın")
- Tone of voice ("Resmi ve net konuş")
- Domain kuralları ("KVKK kapsamında PII açıklama")
- Output format genel kuralları ("Markdown kullan")
- Knowledge base (bazı mimarilerde burada)
Boyut: 500 token - 50K token (KB dahilse büyür)
Değişim hızı: Haftalık (instructions) veya aylık (KB)
Caching: Mutlak gerekli. En statik katman.
Türkçe örnek:
Sen XYZ Bankası'nın müşteri hizmetleri asistanısın. Görevin müşterilere bankacılık sorularında yardım etmek. Kurallar: 1. PII (TCKN, hesap no) doğrulamadan paylaşma 2. Türkçe yanıt ver 3. Net ve saygılı ol 4. Şüpheli işlem → escalate_to_human tool'u çağır
Katman 2 — Tools (Function Definitions)#
Amacı: Modelin dış dünyaya erişim kapısı.
İçerir:
- Tool isimleri (,
search_orders)track_shipment - Tool description'ları (modele ne için kullanacağını anlatır)
- Input schemas (JSON Schema formatında parametre tanımları)
Boyut: 1K - 30K token (5-50 tool)
Değişim hızı: Aylık-3 aylık (kod release'le)
Caching: Mutlak gerekli. Modül 4 Ders 28'de detaylandık.
Önemli: Tools her zaman tüm liste; sub-setting yapılırsa cache miss kalır.
Katman 3 — RAG Context (Retrieved Documents)#
Amacı: Sorguya dinamik bilgi sağlama.
İçerir:
- Vector DB'den retrieve edilmiş alakalı doc'lar
- Her doc 200-2000 token civarı
- Genelde 3-10 doc
Boyut: 2K - 50K token
Değişim hızı: Her sorguda farklı
Caching: Çok zor (her sorgu farklı). Çözüm:
- Statik kısımları cache, dinamik retrieval ayrı (Modül 7'de detaylı)
- Veya: top-K cache (en sık kullanılan doc'lar)
- Veya: cache yok, retrieval direct
Modül 7 Hatırlatma
RAG katmanı en çok tartışılan. Modül 7'yi tamamen bu kısma ayırdık.
Katman 4 — Conversation History#
Amacı: Multi-turn diyalogda geçmiş bağlam.
İçerir:
- User mesajları + assistant cevapları
- Tool çağrıları + tool sonuçları
- N-turn'lük geçmiş
Boyut: 0 - 100K token (uzun konuşmada büyür)
Değişim hızı: Her turn yeni ekleme
Caching: Incremental — her turn'de cache prefix uzar. Modül 8'de.
Önemli kural: Eski mesajları silme; summarize et. Truncation cache'i kırar.
Katman 5 — User Query#
Amacı: Aktif kullanıcı isteği.
İçerir:
- Kullanıcının şu anki mesajı
- Bazen attach edilmiş dosyalar
- Mode/locale belirteçleri
Boyut: 10 token - 5K token (genelde küçük)
Değişim hızı: Her istek farklı
Caching: ASLA cache. Bu zaten dinamik kısım.
Pattern: Statik kısımdan SONRA gelecek. Prompt'un en sonunda.
Katman 6 — Output Schema#
Amacı: Modelin nasıl cevap vereceğini kısıtlama.
İçerir:
- JSON schema (structured output)
- Format örnekleri
- "Sadece şu alanları doldur" kısıtlamaları
Boyut: 100 - 2K token
Değişim hızı: Sabit (kod release'le)
Caching: Genelde system'in parçası olarak cache; ayrı katman olmasa da output validation için önemli.
Modern alternatif: Provider'ın native structured output API'leri (OpenAI's response_format, Anthropic's tool_use as structured output). Bunlar context'e token eklemeden tipini zorlar.
6 Katman Birarada — Token Budget Örnek#
Tipik bir production asistanın context yapısı (200K Claude için):
| Katman | Token | % Bütçe | Caching |
|---|---|---|---|
| System (KB dahil) | 50.000 | 25% | ✅ 1h TTL |
| Tools | 15.000 | 7.5% | ✅ 1h TTL |
| RAG | 10.000 | 5% | ⚠️ kısmen |
| History | 30.000 | 15% | ✅ 5m TTL |
| User query | 200 | 0.1% | ❌ |
| Output schema | 500 | 0.25% | ✅ system'le |
| Kullanılan | 105.700 | 53% | — |
| Output rezerv | 64.000 | 32% | — |
| Tampon | 30.000 | 15% | — |
| Total | 199.700 | 100% | — |
Sağlıklı Bütçe
Bu tablo "sağlıklı bir 200K context budget'ı". Senin uygulaman bambaşka oranlarda olabilir — örnek: code asistanı %80 codebase + %5 history + %15 query/output. Önemli olan: bilinçli bütçe kararı.
✓ Pekiştir#
Bir Sonraki Derste#
Token budget allocation'ın detayına gireceğiz: hangi katmana ne kadar tahsis, neden, ve trade-off'lar.
Frequently Asked Questions
Evet, özelleştirebilirsiniz: 'cache breakpoint markers' ayrı bir katman olabilir, 'memory long-term' Vermillion gibi mimarilerde ayrı katman. Ama 6 katman 'standart' kabul ediliyor — çoğu sistem buna oturuyor.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Context Penceresi Ekonomisi
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Start Learning1. Temeller — Context Penceresi Ekonomisi
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
Start Learning1. Temeller — Context Penceresi Ekonomisi
Context Window Evrimi: 4K'dan 1M'a 5 Yılda Ne Oldu?
Start LearningConnected pillar topics