Token Budget Allocation: Bütçeni Nasıl Dağıtırsın?
200K context window küçük gibi duruyor mu? Yanlış. Bütçen sınırlı ve her tokenı tasarlamalısın. Bu derste 'budget per layer' kararlarını sistematik vereceksin.
Şükrü Yusuf KAYA
13 min read
IntermediateToken Budget Allocation
LLM context window'un sınırlı. 200K büyük gibi duruyor — değil. Her token bir karar.
Bu derste sistematik bütçe yönetimi: hangi katmana ne tahsis edersin, neden, ve trade-off'lar.
Budget Eşitliği#
Context window'a sığması gereken her şey:
Burada:
- (T_i) = i'nci katmanın token sayısı
- (T_{\text{output}}) = output için rezerv (genelde 4K-64K)
- (T_{\text{tampon}}) = güvenlik tamponu (%10-15)
- (T_{\text{context max}}) = modelin max context (Claude 200K, GPT 128K, Gemini 1M-2M)
Output Rezervi Önemli#
Her API call'da parametresi var. Bu output için rezerve edilen token sayısı. Eğer 200K context'in 195K'sını input yaparsan, output için sadece 5K kalır.
max_tokensPratik kural:
| Use case | Max tokens (output) |
|---|---|
| Sınıflandırma / extraction | 500-1000 |
| Q&A | 1000-2000 |
| Generation (essay, code) | 4000-8000 |
| Long-form content | 16K-32K |
| Reasoning (with thinking) | 32K-64K |
Tampon: %10-15 Bırak#
API çağrılarında "bütçeyi tam sıkma." Tampon nedenleri:
- Tokenizer farkları — local tokenizer ile provider tokenizer farklı sayabilir (~%5 sapma)
- System eklenen tokenlar — provider tool format için ekstra eklemeler yapabilir
- Output safety — model bazen 'a yaklaşır ve tampon olur
max_tokens
Tipik: 200K context'te ~180K'yı kullan, ~20K tampon.
Budget Allocation: Use Case'e Göre#
System + KB: 50K (25%) ← cache'lenebilir Tools: 15K (7.5%) ← cache'lenebilir RAG: 10K (5%) ← dinamik History: 50K (25%) ← incremental cache User query: 0.2K (0.1%) Output rezerv: 4K Tampon: 70K ───────────────────── Toplam: 199.7K / 200K
Multi-turn'de history büyür. 50K budget = ~80 turn (avg 600 token/turn).
Budget Allocation Karar Süreci#
Sistematik karar için bu sorulara cevap ver:
Bütçe Aşıldığında Ne Yapılır?#
Context window'a sığmıyorsan 4 strateji:
- Compression — KB veya history'yi özetle (Modül 5 Ders 36)
- RAG'a kaydır — bilginin bir kısmını cache yerine retrieval'a al (Modül 7)
- Daha büyük model — Gemini 1M-2M (Modül 6)
- Mimari değişimi — birden çok küçük sorgu, sonuçları birleştir
Output Rezervi
Sık yapılan hata: Output rezervini unutmak. Input'u 199K yaparsan output 1K — model cevabı yarıda keser. Hep minimum ihtiyacı + tampon olacak şekilde rezerv et.
max_tokens✓ Pekiştir#
Bir Sonraki Derste#
Bütçeyi dağıttın — ama bilgiyi context'in neresinde koyman önemli. "Lost in the middle" fenomenini göreceğiz.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
Related Content
1. Temeller — Context Penceresi Ekonomisi
Bu Eğitim Hakkında ve Prompt Caching Neden Önemli?
Start Learning1. Temeller — Context Penceresi Ekonomisi
Token Ekonomisi 101: Input vs Output Cost Asimetrisi
Start Learning1. Temeller — Context Penceresi Ekonomisi