Token Budget Allocation: Bütçeni Nasıl Dağıtırsın?

Name: Token Budget Allocation: Bütçeni Nasıl Dağıtırsın?
Author: Şükrü Yusuf KAYA

200K context window küçük gibi duruyor mu? Yanlış. Bütçen sınırlı ve her tokenı tasarlamalısın. Bu derste 'budget per layer' kararlarını sistematik vereceksin.

Şükrü Yusuf KAYA

13 min read

5/14/2026

Intermediate

Token Budget Allocation

LLM context window'un sınırlı. 200K büyük gibi duruyor — değil. Her token bir karar.

Bu derste sistematik bütçe yönetimi: hangi katmana ne tahsis edersin, neden, ve trade-off'lar.

Budget Eşitliği#

Context window'a sığması gereken her şey:

Burada:

(T_i) = i'nci katmanın token sayısı
(T_{\text{output}}) = output için rezerv (genelde 4K-64K)
(T_{\text{tampon}}) = güvenlik tamponu (%10-15)
(T_{\text{context max}}) = modelin max context (Claude 200K, GPT 128K, Gemini 1M-2M)

Output Rezervi Önemli#

Her API call'da

max_tokens

parametresi var. Bu output için rezerve edilen token sayısı. Eğer 200K context'in 195K'sını input yaparsan, output için sadece 5K kalır.

Pratik kural:

Use case	Max tokens (output)
Sınıflandırma / extraction	500-1000
Q&A	1000-2000
Generation (essay, code)	4000-8000
Long-form content	16K-32K
Reasoning (with thinking)	32K-64K

Tampon: %10-15 Bırak#

API çağrılarında "bütçeyi tam sıkma." Tampon nedenleri:

Tokenizer farkları — local tokenizer ile provider tokenizer farklı sayabilir (~%5 sapma)
System eklenen tokenlar — provider tool format için ekstra eklemeler yapabilir
Output safety — model bazen
max_tokens
'a yaklaşır ve tampon olur

Tipik: 200K context'te ~180K'yı kullan, ~20K tampon.

Budget Allocation: Use Case'e Göre#

System + KB:    50K (25%)  ← cache'lenebilir
Tools:          15K (7.5%) ← cache'lenebilir
RAG:            10K (5%)   ← dinamik
History:        50K (25%)  ← incremental cache
User query:     0.2K (0.1%)
Output rezerv:  4K
Tampon:         70K
─────────────────────
Toplam:         199.7K / 200K

Multi-turn'de history büyür. 50K budget = ~80 turn (avg 600 token/turn).

Budget Allocation Karar Süreci#

Sistematik karar için bu sorulara cevap ver:

Bütçe Aşıldığında Ne Yapılır?#

Context window'a sığmıyorsan 4 strateji:

Compression — KB veya history'yi özetle (Modül 5 Ders 36)
RAG'a kaydır — bilginin bir kısmını cache yerine retrieval'a al (Modül 7)
Daha büyük model — Gemini 1M-2M (Modül 6)
Mimari değişimi — birden çok küçük sorgu, sonuçları birleştir

Output Rezervi

Sık yapılan hata: Output rezervini unutmak. Input'u 199K yaparsan output 1K — model cevabı yarıda keser. Hep

max_tokens

minimum ihtiyacı + tampon olacak şekilde rezerv et.

✓ Pekiştir#

Bir Sonraki Derste#

Bütçeyi dağıttın — ama bilgiyi context'in neresinde koyman önemli. "Lost in the middle" fenomenini göreceğiz.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Token Budget Allocation: Bütçeni Nasıl Dağıtırsın?

Token Budget Allocation

Budget Eşitliği#

Output Rezervi Önemli#

Tampon: %10-15 Bırak#

Budget Allocation: Use Case'e Göre#

Budget Allocation Karar Süreci#

Bütçe Aşıldığında Ne Yapılır?#

✓ Pekiştir#

Bir Sonraki Derste#

Yorumlar & Soru-Cevap

Related Content

Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?

Token Ekonomisi 101: Input vs Output Cost Asimetrisi

Context Window Evrimi: 4K'dan 1M'a 5 Yılda Ne Oldu?

Subscribe to Newsletter