Hangi katmandan başlamalı yeni bir asistan tasarımına?

System (kim olduğu) + 1-2 katman daha. Önce minimal versiyon, sonra incrementally tools, RAG, history ekle. Hepsini birden tasarlamaya çalışma — hata yaparsın.

Context'in 6 Katmanı: Bir LLM Çağrısının Anatomisi

Name: Context'in 6 Katmanı: Bir LLM Çağrısının Anatomisi
Author: Şükrü Yusuf KAYA

Production LLM uygulamalarında context 6 standart katmandan oluşur: system, tools, RAG, history, user query, output schema. Bu derste her katmanın amacını, token bütçesini ve caching açısından önemini öğreneceksin.

Şükrü Yusuf KAYA

14 min read

5/14/2026

Intermediate

Context'in 6 Katmanı

Bir LLM çağrısının context'i kaotik bir bilgi yığını değil; mühendis tasarımıyla 6 katmanlı yapı. Her katmanın amacı, davranışı ve caching karakteristiği farklı.

Katman 1 — System Prompt#

Amacı: Modelin kim olduğunu ve nasıl davranacağını söyler.

İçerir:

Persona ("Sen bir bankacılık asistanısın")
Tone of voice ("Resmi ve net konuş")
Domain kuralları ("KVKK kapsamında PII açıklama")
Output format genel kuralları ("Markdown kullan")
Knowledge base (bazı mimarilerde burada)

Boyut: 500 token - 50K token (KB dahilse büyür)

Değişim hızı: Haftalık (instructions) veya aylık (KB)

Caching: Mutlak gerekli. En statik katman.

Türkçe örnek:

Sen XYZ Bankası'nın müşteri hizmetleri asistanısın.
Görevin müşterilere bankacılık sorularında yardım etmek.

Kurallar:
1. PII (TCKN, hesap no) doğrulamadan paylaşma
2. Türkçe yanıt ver
3. Net ve saygılı ol
4. Şüpheli işlem → escalate_to_human tool'u çağır

Katman 2 — Tools (Function Definitions)#

Amacı: Modelin dış dünyaya erişim kapısı.

İçerir:

Tool isimleri (
search_orders
,
track_shipment
)
Tool description'ları (modele ne için kullanacağını anlatır)
Input schemas (JSON Schema formatında parametre tanımları)

Boyut: 1K - 30K token (5-50 tool)

Değişim hızı: Aylık-3 aylık (kod release'le)

Caching: Mutlak gerekli. Modül 4 Ders 28'de detaylandık.

Önemli: Tools her zaman tüm liste; sub-setting yapılırsa cache miss kalır.

Katman 3 — RAG Context (Retrieved Documents)#

Amacı: Sorguya dinamik bilgi sağlama.

İçerir:

Vector DB'den retrieve edilmiş alakalı doc'lar
Her doc 200-2000 token civarı
Genelde 3-10 doc

Boyut: 2K - 50K token

Değişim hızı: Her sorguda farklı

Caching: Çok zor (her sorgu farklı). Çözüm:

Statik kısımları cache, dinamik retrieval ayrı (Modül 7'de detaylı)
Veya: top-K cache (en sık kullanılan doc'lar)
Veya: cache yok, retrieval direct

Modül 7 Hatırlatma

RAG katmanı en çok tartışılan. Modül 7'yi tamamen bu kısma ayırdık.

Katman 4 — Conversation History#

Amacı: Multi-turn diyalogda geçmiş bağlam.

İçerir:

User mesajları + assistant cevapları
Tool çağrıları + tool sonuçları
N-turn'lük geçmiş

Boyut: 0 - 100K token (uzun konuşmada büyür)

Değişim hızı: Her turn yeni ekleme

Caching: Incremental — her turn'de cache prefix uzar. Modül 8'de.

Önemli kural: Eski mesajları silme; summarize et. Truncation cache'i kırar.

Katman 5 — User Query#

Amacı: Aktif kullanıcı isteği.

İçerir:

Kullanıcının şu anki mesajı
Bazen attach edilmiş dosyalar
Mode/locale belirteçleri

Boyut: 10 token - 5K token (genelde küçük)

Değişim hızı: Her istek farklı

Caching: ASLA cache. Bu zaten dinamik kısım.

Pattern: Statik kısımdan SONRA gelecek. Prompt'un en sonunda.

Katman 6 — Output Schema#

Amacı: Modelin nasıl cevap vereceğini kısıtlama.

İçerir:

JSON schema (structured output)
Format örnekleri
"Sadece şu alanları doldur" kısıtlamaları

Boyut: 100 - 2K token

Değişim hızı: Sabit (kod release'le)

Caching: Genelde system'in parçası olarak cache; ayrı katman olmasa da output validation için önemli.

Modern alternatif: Provider'ın native structured output API'leri (OpenAI's response_format, Anthropic's tool_use as structured output). Bunlar context'e token eklemeden tipini zorlar.

6 Katman Birarada — Token Budget Örnek#

Tipik bir production asistanın context yapısı (200K Claude için):

Katman	Token	% Bütçe	Caching
System (KB dahil)	50.000	25%	✅ 1h TTL
Tools	15.000	7.5%	✅ 1h TTL
RAG	10.000	5%	⚠️ kısmen
History	30.000	15%	✅ 5m TTL
User query	200	0.1%	❌
Output schema	500	0.25%	✅ system'le
Kullanılan	105.700	53%	—
Output rezerv	64.000	32%	—
Tampon	30.000	15%	—
Total	199.700	100%	—

Sağlıklı Bütçe

Bu tablo "sağlıklı bir 200K context budget'ı". Senin uygulaman bambaşka oranlarda olabilir — örnek: code asistanı %80 codebase + %5 history + %15 query/output. Önemli olan: bilinçli bütçe kararı.

✓ Pekiştir#

Bir Sonraki Derste#

Token budget allocation'ın detayına gireceğiz: hangi katmana ne kadar tahsis, neden, ve trade-off'lar.

Frequently Asked Questions

Evet, özelleştirebilirsiniz: 'cache breakpoint markers' ayrı bir katman olabilir, 'memory long-term' Vermillion gibi mimarilerde ayrı katman. Ama 6 katman 'standart' kabul ediliyor — çoğu sistem buna oturuyor.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

RAG (Retrieval-Augmented Generation) Architecture

RAG (Retrieval-Augmented Generation) is an architecture that grounds large-language-model answers in chunks retrieved from the organization's own documents or data sources, providing both freshness and citations.

Context'in 6 Katmanı: Bir LLM Çağrısının Anatomisi

Context'in 6 Katmanı

Katman 1 — System Prompt#

Katman 2 — Tools (Function Definitions)#

Katman 3 — RAG Context (Retrieved Documents)#

Katman 4 — Conversation History#

Katman 5 — User Query#

Katman 6 — Output Schema#

6 Katman Birarada — Token Budget Örnek#

✓ Pekiştir#

Bir Sonraki Derste#

Frequently Asked Questions

Bazı uygulamalar 7-8 katmana mı çıkıyor?

Hangi katmandan başlamalı yeni bir asistan tasarımına?

Yorumlar & Soru-Cevap

Related Content

Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?

Token Ekonomisi 101: Input vs Output Cost Asimetrisi

Context Window Evrimi: 4K'dan 1M'a 5 Yılda Ne Oldu?

Pillar topics this article maps to

RAG (Retrieval-Augmented Generation) Architecture

Subscribe to Newsletter