İçeriğe geç
Tüm roadmap'e dön
topicfoundation

Tokenization

Token = modelin gördüğü atom birim. Token sayısı = maliyet + bağlam tüketimi.

2 saat2 saat3 kaynak1 önkoşul

Modeller cümleleri değil token'ları görür. GPT/Claude için 1 token ≈ 4 İngilizce karakter, ≈ 1.5-2 Türkçe karakter. Türkçe daha pahalı çünkü BPE (Byte Pair Encoding) İngilizce-ağırlıklı eğitilmiş.

Pratik:

  • Aynı içeriği EN yazmak %30-50 daha az token kullanabilir
  • JSON'da gereksiz boşluk silmek tasarruf eder
  • Long-context istek pahalıdır; sadece gerekli bilgiyi gönder

Ne kazanırsın?

Tokenizer playground'ta bir prompt'un kaç token olduğunu anında tahmin edebilir, maliyeti planlayabilirsin.

Önce bunları bil

Kaynaklar(3)