Tüm roadmap'e dön
topicfoundation
Tokenization
Token = modelin gördüğü atom birim. Token sayısı = maliyet + bağlam tüketimi.
2 saat2 saat3 kaynak1 önkoşul
Modeller cümleleri değil token'ları görür. GPT/Claude için 1 token ≈ 4 İngilizce karakter, ≈ 1.5-2 Türkçe karakter. Türkçe daha pahalı çünkü BPE (Byte Pair Encoding) İngilizce-ağırlıklı eğitilmiş.
Pratik:
- Aynı içeriği EN yazmak %30-50 daha az token kullanabilir
- JSON'da gereksiz boşluk silmek tasarruf eder
- Long-context istek pahalıdır; sadece gerekli bilgiyi gönder
Ne kazanırsın?
Tokenizer playground'ta bir prompt'un kaç token olduğunu anında tahmin edebilir, maliyeti planlayabilirsin.