Bağlam penceresi (context window) nedir?

LLM'in tek seferde işleyebildiği maksimum token sayısı. Claude Sonnet 4.6: 1M token. GPT-4o: 128K. Limit aşılırsa eski tokenlar 'unutulur' veya hata alınır. Sonraki derste detay.

LLM'ler Aslında Nasıl Düşünür? (Token, Embedding, Attention)

Name: LLM'ler Aslında Nasıl Düşünür? (Token, Embedding, Attention)
Author: Şükrü Yusuf KAYA

Tokenization, embedding, attention mekanizması ve next-token prediction — LLM'in iç işleyişini görselleştirilmiş, uygulamalı bir dersle sıfırdan inşa et.

Şükrü Yusuf KAYA

18 min read

5/11/2026

Beginner

LLM'in İç Yapısı: Token, Embedding, Attention

LLM'i bir "siyah kutu" olarak kullanmak mümkün ama iç mantığını anlamadan profesyonel prompt yazmak zordur. Bu derste LLM'in girdiyi nasıl işlediğini adım adım göreceğiz.

1. Tokenization: Metni Parçalara Ayırmak#

LLM harfleri veya kelimeleri doğrudan görmez. Token denilen alt-kelime birimleriyle çalışır.

Örneğin "Prompt Engineering öğreniyorum" cümlesi GPT-4 tokenizer'ında şöyle parçalanır:

text

["Prompt", " Engineering", " öğren", "iyor", "um"]
                                  └─ "öğreniyorum" 3 token!

GPT-4 tokenizer çıktısı (yaklaşık)

Türkçe ve Token Maliyeti

Türkçe için önemli: Türkçe gibi eklemli dillerde tek bir kelime 3-5 token'a bölünebilir. Bu, maliyetin İngilizce'ye göre %30-60 daha yüksek olması demek. Üretimde bu farkı hesaba katmalısın.

python

# Tokenization deneyi — tiktoken ile
# pip install tiktoken
import tiktoken
 
enc = tiktoken.encoding_for_model("gpt-4o")
 
cumleler = [
    "Hello, world",
    "Merhaba dünya",
    "Yapay zeka mühendisliği muhteşem",
    "Artificial intelligence engineering is amazing",
]
 
for c in cumleler:
    tokens = enc.encode(c)
    print(f"{c!r:50} -> {len(tokens)} token: {tokens}")

Aynı anlamı taşıyan İngilizce ve Türkçe cümlelerde token farkını gözlemle.

2. Embedding: Token → Vektör#

Her token, embedding katmanı'nda yüksek boyutlu bir vektöre dönüşür. GPT-4'te bu boyut ~12.288'dir.

Bu vektörler anlamsal yakınlığı kodlar:

text

embedding("kral")    ≈ [0.21, -0.7, 0.4, ...]
embedding("kraliçe") ≈ [0.19, -0.6, 0.5, ...]   ← çok benzer!
embedding("muz")     ≈ [0.93,  0.1, -0.8, ...]  ← uzak
 
Klasik deney:
embedding("kral") - embedding("erkek") + embedding("kadın")
                  ≈ embedding("kraliçe")

Embedding'in semantik uzaklık örneği

İki vektörün cosine similarity'si 1'e yaklaştıkça anlamsal olarak benzer demektir. Bu, RAG sistemlerinin (Modül 7) kalbidir.

3. Attention: Hangi Token Hangisine Bakıyor?#

Transformer'ın "sihri" attention mekanizmasıdır. Her token, dizgideki diğer tokenlerden ne kadar etkilenmeli? sorusunu hesaplar.

Yukarıdaki örnekte, "havlıyor" kelimesi modellenirken "köpek"'e %85 dikkat verir, "park"a sadece %5. Bu bağlam farkındalığı, LLM'in akıcı metin üretmesinin temelidir.

Multi-head attention: Bu işlem 8-128 farklı "kafa"da paralel yapılır. Her kafa farklı bir ilişki yakalar (sözdizimi, semantik, koreferans...).

4. Next-Token Prediction: LLM'in Tek Görevi#

LLM aslında tek bir şey yapar: Verilen bağlamı görerek bir sonraki token'ın olasılık dağılımını hesaplar.

text · adım 1/3

Bağlam: "Türkiye'nin başkenti"
                          ↓
        Olasılık dağılımı:
          " Ankara"   → 0.94
          " İstanbul" → 0.04
          " Bursa"    → 0.01
          ...

Modelin tahmin dağılımı. Eğitim verisindeki desenleri yansıtır.

En Önemli Mental Model

Akılda tut: LLM bir "düşünme" makinesi değil, istatistiksel bir tahmin makinesidir. "Halüsinasyon" dediğimiz şey aslında modelin bir hata değil, eğitildiği gibi olasılıklara göre token üretmesidir. İşimiz, bu olasılıkları bizim lehimize yönlendirmek = Prompt Engineering.

Pekiştir: Sıralama Egzersizi#

LLM'in bir cümleyi nasıl işlediğinin doğru sırasını oluştur:

Sıralama · text

Sürükle-bırak veya yukarı/aşağı

Frequently Asked Questions

Hayır. Promptcu olmak için **mental model** yeterli: 'LLM, token olasılıklarını tahmin eder.' Sıkı matematik AI Engineering'de gerekli, prompt engineering'de değil.

Yorumlar & Soru-Cevap

(0)

Yorum yazmak için giriş yap.

Yorumlar yükleniyor...

Pillar topics this article maps to

Pillar Topic

RAG (Retrieval-Augmented Generation) Architecture

RAG (Retrieval-Augmented Generation) is an architecture that grounds large-language-model answers in chunks retrieved from the organization's own documents or data sources, providing both freshness and citations.