Skip to content

Token Budget Allocation: Bütçeni Nasıl Dağıtırsın?

200K context window küçük gibi duruyor mu? Yanlış. Bütçen sınırlı ve her tokenı tasarlamalısın. Bu derste 'budget per layer' kararlarını sistematik vereceksin.

Şükrü Yusuf KAYA
13 min read
Intermediate

Token Budget Allocation

LLM context window'un sınırlı. 200K büyük gibi duruyor — değil. Her token bir karar.
Bu derste sistematik bütçe yönetimi: hangi katmana ne tahsis edersin, neden, ve trade-off'lar.

Budget Eşitliği#

Context window'a sığması gereken her şey:
Burada:
  • (T_i) = i'nci katmanın token sayısı
  • (T_{\text{output}}) = output için rezerv (genelde 4K-64K)
  • (T_{\text{tampon}}) = güvenlik tamponu (%10-15)
  • (T_{\text{context max}}) = modelin max context (Claude 200K, GPT 128K, Gemini 1M-2M)

Output Rezervi Önemli#

Her API call'da
max_tokens
parametresi var. Bu output için rezerve edilen token sayısı. Eğer 200K context'in 195K'sını input yaparsan, output için sadece 5K kalır.
Pratik kural:
Use caseMax tokens (output)
Sınıflandırma / extraction500-1000
Q&A1000-2000
Generation (essay, code)4000-8000
Long-form content16K-32K
Reasoning (with thinking)32K-64K

Tampon: %10-15 Bırak#

API çağrılarında "bütçeyi tam sıkma." Tampon nedenleri:
  1. Tokenizer farkları — local tokenizer ile provider tokenizer farklı sayabilir (~%5 sapma)
  2. System eklenen tokenlar — provider tool format için ekstra eklemeler yapabilir
  3. Output safety — model bazen
    max_tokens
    'a yaklaşır ve tampon olur
Tipik: 200K context'te ~180K'yı kullan, ~20K tampon.

Budget Allocation: Use Case'e Göre#

System + KB: 50K (25%) ← cache'lenebilir Tools: 15K (7.5%) ← cache'lenebilir RAG: 10K (5%) ← dinamik History: 50K (25%) ← incremental cache User query: 0.2K (0.1%) Output rezerv: 4K Tampon: 70K ───────────────────── Toplam: 199.7K / 200K
Multi-turn'de history büyür. 50K budget = ~80 turn (avg 600 token/turn).

Budget Allocation Karar Süreci#

Sistematik karar için bu sorulara cevap ver:

Bütçe Aşıldığında Ne Yapılır?#

Context window'a sığmıyorsan 4 strateji:
  1. Compression — KB veya history'yi özetle (Modül 5 Ders 36)
  2. RAG'a kaydır — bilginin bir kısmını cache yerine retrieval'a al (Modül 7)
  3. Daha büyük model — Gemini 1M-2M (Modül 6)
  4. Mimari değişimi — birden çok küçük sorgu, sonuçları birleştir
Output Rezervi
Sık yapılan hata: Output rezervini unutmak. Input'u 199K yaparsan output 1K — model cevabı yarıda keser. Hep
max_tokens
minimum ihtiyacı + tampon olacak şekilde rezerv et.

✓ Pekiştir#

Bir Sonraki Derste#

Bütçeyi dağıttın — ama bilgiyi context'in neresinde koyman önemli. "Lost in the middle" fenomenini göreceğiz.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content