topicfoundation

Tokenization

Token = modelin gördüğü atom birim. Token sayısı = maliyet + bağlam tüketimi.

2 saat2 saat3 kaynak1 önkoşul

Modeller cümleleri değil token'ları görür. GPT/Claude için 1 token ≈ 4 İngilizce karakter, ≈ 1.5-2 Türkçe karakter. Türkçe daha pahalı çünkü BPE (Byte Pair Encoding) İngilizce-ağırlıklı eğitilmiş.

Pratik:

Aynı içeriği EN yazmak %30-50 daha az token kullanabilir
JSON'da gereksiz boşluk silmek tasarruf eder
Long-context istek pahalıdır; sadece gerekli bilgiyi gönder

Ne kazanırsın?

Tokenizer playground'ta bir prompt'un kaç token olduğunu anında tahmin edebilir, maliyeti planlayabilirsin.

Önce bunları bil

LLM Nasıl Çalışır?

Transformer mimarisi, attention, decoding — modelin neyi neden yaptığını bil.

→

Kaynaklar(3)

TAraç(2)

OpenAI Tokenizer

OpenAI· en

freeresmi

Anthropic Token Counter

Anthropic· en

freeresmi

VVideo(1)

Karpathy — Let's build the GPT Tokenizer

Andrej Karpathy· 2h 13m· en

Tüm roadmap'i interaktif görüntüle