Skip to content

LLM'ler Aslında Nasıl Düşünür? (Token, Embedding, Attention)

Tokenization, embedding, attention mekanizması ve next-token prediction — LLM'in iç işleyişini görselleştirilmiş, uygulamalı bir dersle sıfırdan inşa et.

Şükrü Yusuf KAYA
18 min read
Beginner

LLM'in İç Yapısı: Token, Embedding, Attention

LLM'i bir "siyah kutu" olarak kullanmak mümkün ama iç mantığını anlamadan profesyonel prompt yazmak zordur. Bu derste LLM'in girdiyi nasıl işlediğini adım adım göreceğiz.

1. Tokenization: Metni Parçalara Ayırmak#

LLM harfleri veya kelimeleri doğrudan görmez. Token denilen alt-kelime birimleriyle çalışır.
Örneğin "Prompt Engineering öğreniyorum" cümlesi GPT-4 tokenizer'ında şöyle parçalanır:
text
["Prompt", " Engineering", " öğren", "iyor", "um"]
└─ "öğreniyorum" 3 token!
GPT-4 tokenizer çıktısı (yaklaşık)
Türkçe ve Token Maliyeti
Türkçe için önemli: Türkçe gibi eklemli dillerde tek bir kelime 3-5 token'a bölünebilir. Bu, maliyetin İngilizce'ye göre %30-60 daha yüksek olması demek. Üretimde bu farkı hesaba katmalısın.
python
# Tokenization deneyi — tiktoken ile
# pip install tiktoken
import tiktoken
 
enc = tiktoken.encoding_for_model("gpt-4o")
 
cumleler = [
"Hello, world",
"Merhaba dünya",
"Yapay zeka mühendisliği muhteşem",
"Artificial intelligence engineering is amazing",
]
 
for c in cumleler:
tokens = enc.encode(c)
print(f"{c!r:50} -> {len(tokens)} token: {tokens}")
 
Aynı anlamı taşıyan İngilizce ve Türkçe cümlelerde token farkını gözlemle.

2. Embedding: Token → Vektör#

Her token, embedding katmanı'nda yüksek boyutlu bir vektöre dönüşür. GPT-4'te bu boyut ~12.288'dir.
Bu vektörler anlamsal yakınlığı kodlar:
text
embedding("kral") ≈ [0.21, -0.7, 0.4, ...]
embedding("kraliçe") ≈ [0.19, -0.6, 0.5, ...] ← çok benzer!
embedding("muz") ≈ [0.93, 0.1, -0.8, ...] ← uzak
 
Klasik deney:
embedding("kral") - embedding("erkek") + embedding("kadın")
≈ embedding("kraliçe")
Embedding'in semantik uzaklık örneği
İki vektörün cosine similarity'si 1'e yaklaştıkça anlamsal olarak benzer demektir. Bu, RAG sistemlerinin (Modül 7) kalbidir.

3. Attention: Hangi Token Hangisine Bakıyor?#

Transformer'ın "sihri" attention mekanizmasıdır. Her token, dizgideki diğer tokenlerden ne kadar etkilenmeli? sorusunu hesaplar.
Yukarıdaki örnekte, "havlıyor" kelimesi modellenirken "köpek"'e %85 dikkat verir, "park"a sadece %5. Bu bağlam farkındalığı, LLM'in akıcı metin üretmesinin temelidir.
Multi-head attention: Bu işlem 8-128 farklı "kafa"da paralel yapılır. Her kafa farklı bir ilişki yakalar (sözdizimi, semantik, koreferans...).

4. Next-Token Prediction: LLM'in Tek Görevi#

LLM aslında tek bir şey yapar: Verilen bağlamı görerek bir sonraki token'ın olasılık dağılımını hesaplar.
text · adım 1/3
Bağlam: "Türkiye'nin başkenti" ↓ Olasılık dağılımı: " Ankara" → 0.94 " İstanbul" → 0.04 " Bursa" → 0.01 ...
Modelin tahmin dağılımı. Eğitim verisindeki desenleri yansıtır.
En Önemli Mental Model
Akılda tut: LLM bir "düşünme" makinesi değil, istatistiksel bir tahmin makinesidir. "Halüsinasyon" dediğimiz şey aslında modelin bir hata değil, eğitildiği gibi olasılıklara göre token üretmesidir. İşimiz, bu olasılıkları bizim lehimize yönlendirmek = Prompt Engineering.

Pekiştir: Sıralama Egzersizi#

LLM'in bir cümleyi nasıl işlediğinin doğru sırasını oluştur:
Sıralama · text

Frequently Asked Questions

Hayır. Promptcu olmak için **mental model** yeterli: 'LLM, token olasılıklarını tahmin eder.' Sıkı matematik AI Engineering'de gerekli, prompt engineering'de değil.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

Related Content

Connected pillar topics

Pillar topics this article maps to